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内 容 简 介 


本 书面 向 所 有 对 机 器 学 习 与 数据 挖掘 的 实践 及 竞赛 感 兴趣 的 读者 ,从 零 开始 ,以 Python 编程 语言 为 基础 ,在 不 涉及 大 
量 数 学 模型 与 复杂 编程 知识 的 前 提 下 ,逐步 带领 读者 熟悉 并 且 掌 握 当 下 最 流行 的 机 器 学 习 、 数 据 挖掘 与 自然 语言 处 理工 
具 , 如 Scikit-learn, NLTK „Pandas, gensim, XGBoost „Google Tensorflow 等 。 

全 书 共 分 4 章 。 第 1 章 简介 篇 ,介绍 机 器 学 习 概 念 与 Python 编程 知识 ;第 2 章 基础 篇 ,讲述 如 何 使 用 Scikit-learn 作为 
基础 机 器 学 习 工 具 ; 第 3 章 进 阶 篇 ,涉及 怎样 借助 高 级 技术 或 者 模型 进一步 提升 既 有 机 器 学 习 系 统 的 性 能 ;第 4 章 竞 赛 篇 ， 
以 Kaggle 平台 为 对 象 ,帮助 读者 一 步 步 使 用 本 书 介 绍 过 的 模型 和 技巧 ,完成 三 项 具有 代表 性 的 竞赛 任务 。 
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MAK ”中 国 工程院 院士 ,中 国 科学 院 电 工 研究 所 研究 员 Ae 


丛书 顾问 ( 按 姓 名 拼音 排序 ) 

陈 雪 涛 ” 己 簿 创业 投资 管理 有 限 公司 总 裁 、 北 京 创 客 空 间 科 技 有 限 公司 副 董事 长 

党 德 鹏 “北京 师范 大 学 计算 机 系 系 主任 .信息 学 院 教授 .博士 生 导师 

黄 英 中 关 村 科技 园区 海淀 园 管理 委员 会 副 主任 ,新闻 发 言 人 

李 超 清华 大 学 信 研 院 Web 与 软件 研究 中 心 副 主任 、 副 研究 员 

Æ 涛 Geek2Startup 联合 创始 人 、 曾 任 CSDN 移动 业务 拓展 总 监 

李 卫 平 ” 知 金 教育 咨询 有 限 公 司 总 裁 ,北京 理 工大 学 兼职 教授 .2016 中 国 互联 网 教育 
领军 人 物 

刘 峰 峰 富士康 工业 工程 学 院 华北 分 院 院 长 ,富士康 廊坊 厂区 制造 负责 人 

JE 林 亚都 北京 科技 有 限 公司 总 裁 

wo 拓 清华 大 学 xlab 未 来 生活 中 心 创始 人 、 互 联网 十 研究 院 创始 人 

3. 5 车 库 咖 啡 创始 人 、U 十 联合 创始 人 

陶 锋 清华 大 学 xlab 互联 网 与 信息 技术 创新 中 心 执行 主管 兼 培育 顾问 

滕 桂 法 ”河北 省 高 等 院 校 计 算 机 教育 研究 会 理事 长 

宋 述 强 《现代 教育 技术 ) 杂 志 副 主编 ,清华 大 学 创 客 教育 实验 室 Co-director 

宋 跃 武 ”创新 知识 体系 创始 人 ,海淀 区 创业 园 企业 家 训练 营 总 裁 实战 导师 

E 津 可 穿戴 计算 产业 联盟 云 计 算 大 数据 负责 人 ,中 民 社 会 捐助 发 展 中 心 副 主任 

王丽华 ”北京 航空 航天 大 学 软件 学 院 副 院 长 .教授 

ERT 中国 人工 智 能 学 会 秘书 长 

E E 清华 大 数据 产业 联合 会 秘书 长 

X 辉 清华 阳光 科技 有 限 公 司 总 裁 

向 东 清华 大 学 机 械 工 程 系 副教授 ,博士 生 导师 .中 国 绿色 制造 技术 标准 化 技术 委 
员 会 委员 兼 副 秘书 长 中国 机 械 制造 工艺 协会 常务 理事 





;Phihm 机 器 学 习 及 实践 





清华 大 学 出 版 社 资深 策划 人 

易 创 互联 创始 人 、 易 创 学 院 创始 人 

清华 大 学 信 研 院 副 院 长 .教授 ,博士 生 导师 

中 国 科 学 院 电 工 研究 所 蒸发 冷却 技术 研究 发 展 中 心 副 研 究 员 

中 国教 育 技术 协会 教育 游戏 专业 委员 会 常务 理事 ,皮影 客 创始 人 
清华 大 学 计算 机 系 教授 ,博士 生 导师 

顶 你 学 堂 创始 人 、 中 国 高 科 股份 有 限 公 司 教育 事业 部 副 总 经 理 
创业 沙拉 联合 创始 人 

精 一 天 使 公社 合伙 人 

清华 大 学 计算 机 系 教授 、 教 育 部 教育 信息 化 技术 标准 委员 会 专家 兼 秘 书 长 
华东 师范 大 学 终身 教授 .教育 技术 学 博士 生 导师 


在 产业 升级 急需 、 区 域 发 展 呼吁 .国家 政策 引导 、 社 会 与 论 支持 ,成 功 者 亲身 鼓励 等 多 
方 的 推动 下 ,“ 大 众 创新 万 众 创业 "已 成 为 一 股 年 轻 人 普遍 关注 和 参与 的 热潮 ,。“ 大 众 创 
业 \ 万 众 创新 ”作为 创新 驱动 发 展 战略 的 最 主要 实施 方案 ,有 效 改善 了 我 国 就 业 困难 ,行业 
升级 效率 低下 等 局 面 。 

变化 颠覆、 创新 早已 成 为 我 们 这 个 时 代 的 主旋律 ,这 是 我 们 酝酿 这 套 丛 书 的 背景 。 

创新 的 关键 在 于 人 才 培 养 。2015 年 11 月 底 , 教 育 部 下 发 了 《教育 部 关于 做 好 2016 
届 全 国 普通 高 等 学 校 毕业 生 就 业 创 业 工 作 的 通知 》, 通 知 规定 ,从 2016 年 起 所 有 高 校 都 要 
设置 创意 创新 创业 教育 课程 ,对 全 体 学 生 开 发 开设 创意 创新 创业 教育 (以 下 简称 三 创 教 
育 ) 必 修 课 和 选修 课 ,并 纳入 学 分 管理 。 对 有 创业 意愿 的 学 生 , 开 设 创业 指导 及 实 训 类 课 
程 ,对 已 经 开展 创业 实践 的 学 生 ,开展 企业 经 营 管理 类 培训 。 各 地 各 高 校 要 配 齐 配 强 创意 
创新 创业 教育 专职 教师 ,建立 以 课堂 教学 为 主 渠道 ,讲座 .论坛 .培训 为 补充 的 多 形式 就 业 
指导 课程 体系 。 

强调 突破 和 实践 的 三 创 教育 正式 成 为 国家 创新 驱动 战略 及 人 才 培 养 计划 的 重要 组 成 
部 分 ,这 是 我 们 策划 这 套 丛书 的 契机 。 

中 关 村 汇聚 了 中 国 最 顶级 高 校 ,无 论 是 知识 .技术 .人 才 的 优质 及 密集 程度 ,还 是 知识 
性 企业 .企业 专利 .创业 项 目 及 创业 服务 机 构 的 数量 及 质量 , 均 处 于 全 国 领先 的 地 位 ;可 以 
说 ,中 关 村 早已 积累 了 深厚 的 创新 文化 和 实践 经 验 。 而 北京 市 海淀 区 的 各 个 高 校 ,也 近 水 
楼 台 ,在 师资 和 课程 ,学业 评价 、 校 企 合作 等 多 个 维度 对 创意 创新 创业 教育 已 经 展开 了 有 
益 的 探索 和 尝试 。 这 是 这 套 从 书 诞生 和 成 长 的 土壤 。 

于 是 ,我 们 立足 于 中 关 村 的 知识 资源 和 创业 实践 ,整合 多 方 资源 , 广 邀 优质 活跃 的 创 
业 导 师 、 三 创 组 织 . 孵 化 器 等 ,和 教育 出 版 机 构 ,成 立 了 “中 关 村 融 智 三 创 丛 书 工作 室 ”, 希 
望 通过 非 盈 利 机 构 的 形式 ,助力 高 校 需求 驱动 型 人 才 培 养 。 我 们 计划 创造 性 地 撰写 一 套 
通 识 性 的 三 创 丛 书 , 以 跨 学 科 的 主题 学 习 和 任务 驱动 形式 , 跨 专业 地 服务 于 三 创 起 航 教 
育 , 并 将 同步 策划 基于 互联 网 和 社交 媒体 的 一 体 化 新 型 教学 模式 及 资源 服务 ,我 们 诚挚 希 
望 创意 创新 创业 教育 能 在 中 国生 长 出 内 生 力 量 ,真正 形成 气候 ,实现 繁荣 ,实现 创新 驱动 。 

丛书 遵循 教学 与 创业 的 规律 进展 ,从 有 意 启 发 学 生 创意 及 创新 思维 开始 ,引导 高 校 学 
生 思考 为 什么 要 创意 创新 创业 “我 适合 什么 样 的 行业 及 发 展 道路 ,直至 给 出 具体 的 创业 


方法 论 及 实战 指导 。 因 此 ,丛书 将 首先 策划 和 编写 涉及 三 创 方 面 的 用 于 实现 创意 ,支撑 创 
新 的 实用 前 沿 技术 类 和 技能 类 书籍 ,为 三 创 教育 夯实 * 硬 实力 ”。 在 由 浅 入 深 组 织 丛书 撰 
写 的 同时 ,考虑 到 各 个 领域 专业 化 门槛 较 高 ,市场 需 求 、 政 策 导向 、 学 校 师资 力度 不 一 ,我 
们 同时 还 兼顾 了 不 同行 业 的 特点 ,力争 覆盖 新 兴 行 业 及 国家 重点 发 展 的 领域 ,如 互联 网 、 
新 能 源 .汽车 等 。 

此 外 ,丛书 还 将 策划 另外 两 大 类 书籍 : 一 类 将 涵盖 创业 启程 相关 的 商业 模式 设计 、 产 
品 营销 、 团 队 创建 与 维持 、 投 融资 、 产 品 运 车 管理 法规 遵从 、 知 识 产 权 策略 、 沟 通 与 表达 等 
众多 技术 和 技能 之 外 的 方面 , 即 服 务 于 三 创 的 “ 软 实力 ”; 另 一 类 还 将 从 国际 国内 一 流 高 
校 、 创 客 空间 、 钥 化 器 及 知名 产业 园区 的 创意 、 创 新 、 创 业 及 投资 经 历 中 筛选 出 众多 生动 鲜 
活 的 经 典 案例 ,提供 综合 全 面 的 “好 案例 ”。 

本 套 丛书 具有 开放 性 强 、 通 识 全 面 面向 实践 .行业 案例 新 鲜 丰 富 的 特点 。 正 如 它 所 
服务 的 主题 ,这 套 从 书本 身 就 是 一 个 三 创 教育 的 探索 。 翻 开 顾问 名 单 会 发 现 , 顾 问 中 既 有 
德高望重 的 院士 ,也 有 富有 产业 园区 建设 经 验 的 官员 , 既 有 创业 成 功 的 企业 家 ,还 有 不 断 
探索 三 创 教育 的 学 者 一 一 我 们 希望 这 套 丛书 成 为 教育 家 、 研 究 者 .企业 家 、 投 资方 .创业 者 
等 多 方 合作 的 载体 ,营造 一 个 充满 活力 .良性 互动 .可 持续 发 展 的 教育 生态 系统 ,全 方位 地 
为 高 校 教师 ,学生 、 创 客 空间 、 创 新 创业 团队 提供 权威 性 ,高 品质 的 三 创 教育 服务 ;我 们 也 
希望 这 套 从 书 的 出 版 ,不 仅 能 够 填补 全 国 2800 余 所 高 等 院 校 所 面临 的 急迫 巨大 的 教材 缺 
口 , 更 能 为 高 校 创新 创业 教育 体系 的 建立 和 完善 .创业 实践 指导 、 产 学 研 转 化 等 略 尽 绵 薄 
e. 

最 后 ,感谢 海淀 园 管 委 会 和 清华 大 学 出 版 社 的 领导 们 ,他们 在 本 套 丛书 的 策划 ,撰写 、 
编辑 出 版 的 过 程 中 提供 了 大 量 帮 助 。 由 于 创意 创新 创业 主题 宏大 ,瞬息 万 变 , 本 套 丛书 难 
免 存 在 朴 漏 不 足 , 有 待 今后 进一步 补充 和 完善 ,恳请 读者 批评 指正 。 如 有 读者 愿意 分 享 更 
精彩 的 理念 或 案例 ,也 欢迎 联系 。 


中 关 村 融 智 三 创 丛书 工作 室 
2016 年 9 月 





过 去 近 二 十 年 ,计算 机 科学 的 发 展 是 被 大 量 的 数据 推动 的 。 海 量 数据 提供 了 认识 
世界 的 新 视角 ,同时 也 带 来 了 分 析 和 理解 数据 的 巨大 挑战 。 如 何 从 数据 中 获得 知识 ,并 
利用 这 些 知识 帮助 设计 和 创造 更 满足 用 户 需 求 的 产品 ,希望 将 来 自 新 的 人 工 智 能 算法 。 
大 数据 的 核心 思想 体现 在 整个 工业 流程 中 从 决策 到 执行 数据 的 重要 性 ,其 重要 性 的 发 
挥 依赖 于 现代 计算 方法 一 一 机 器 学 习 。 机 器 学 习 可 以 利用 数据 做 很 多 决策 ,这 些 在 统 
计 意 义 上 都 是 好 的 决策 ,比如 要 不 要 把 这 首 歌 推荐 给 那个 用 户 。 更 惊奇 的 是 当 数 据 足 
够 大 ,计算 能 力 足够 强 ,机 器 也 可 以 学 得 比 人 更 好 。 清 华 大 学 范 森 和 李 超 的 新 著 (Phon 
机 器 学 习 及 实践 》 很 契合 实际 ,从 零 开始 介绍 简单 的 Python 语法 以 及 如 何 用 Python 语言 
来 构建 机 器 学 习 的 模型 。 每 一 个 章节 环 环 相 扣 ,配合 代码 样 例 , 非常 适合 希望 了 解 机 器 
学 习 领 域 的 初学 者 ,甚至 没有 编程 基础 的 学 生 。 大 数据 要 求 机 器 学 习 应 该 更 普及 ,而 普 
及 的 途径 则 是 降低 相关 工具 的 使 用 难度 。 希 望 看 到 这 本 新 书 能 推动 机 器 学 习 的 普及 。 

一 今日 头条 实验 室 科 学 家 , 前 百度 美国 深度 学 习 实 验 室 少 帅 科学 家 FR 
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这 是 一 本 面向 机 器 学 习 实 践 并 且 具 有 很 强 实用 性 的 好 书 。 每 个 章节 ,在 简要 介绍 

一 种 机 器 学 习 模型 的 基础 上 ,结合 具体 的 例子 ,给 出 了 详细 的 Python 程序 的 编程 方法 ， 

有 利于 读者 对 机 器 学 习 方 法 细节 的 掌握 。 跟 随 本 书 , 读 者 将 一 步 步 跨 入 机 器 学 习 的 典 

堂 ,掌握 用 机 器 学 习 方 法 求解 实际 问题 的 技能 。 本 书 适 合 于 想 使 用 机 器 学 习 方 法 求解 

实际 问题 的 博士 生 、 硕 士 生 、 高 年 级 本 科 生 ,以 及 在 企业 工作 的 工程 技术 人 员 阅 读 , 是 一 
本 快速 掌握 机 器 学 习 方 法 求解 实际 问题 的 入 门 读物 ,相信 读者 将 从 本 书 中 获 益 菲 浅 。 

一 清华 大 学 计算 机 系 教授 马 少 平 
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O 按照 推荐 人 的 姓名 拼音 排序 。 
























机 器 学 习 是 专门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ,以 获取 新 的 知识 或 | 
技能 ,重新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 性 能 的 一 门 学 科 , 也 是 当前 科研 机 构 
及 企业 开展 应 用 研究 的 热点 之 一 。 随 着 "互联 网 + "概念 在 中 国 的 提出 ,科研 及 工程 技 
术 人 员 迫 切 需要 将 机 器 学 习 技术 与 互联 网 技术 结合 起 来 ,把 互联 网 与 机 器 学 习 技 术 应 
用 到 人 类 生活 中 。 但 机 器 学 习作 为 一 门 技术 ,具有 一 定 的 门槛 ,如 何 提供 一 本 通俗 易 
懂 、 快 速 入 门 的 技术 书籍 ,让 在 职 科技 人 员 及 在 校 学 生 能 够 尽快 熟悉 机 器 学 习 的 内 容 ， 
理解 机 器 学 习 的 含义 及 本 质 ,是 需要 尽快 解决 的 问题 。 

本 书 前 两 部 分 采用 通俗 的 语言 ,借助 于 现实 生活 的 例子 及 开源 库 包 ,介绍 了 机 器 学 
习 的 基本 概念 及 开源 库 包 的 安装 、 使 用 和 编程 调用 方法 ,通过 实例 展现 了 使 用 经 典 算法 
模型 的 分 析 过 程 及 思考 问题 的 方法 。 第 三 及 第 四 部 分 介绍 了 在 解决 实际 问题 时 如 何 通 
过 抽取 或 者 筛选 数据 特征 、 优 化 模型 配置 ,进一步 提升 经 典 模型 的 性 能 表现 ,从 而 达到 
能 够 将 机 器 学 习 的 经 典 算法 应 用 到 解决 现实 问题 的 目的 。 

尽管 目前 市 场 上 关于 机 器 学 习 的 书籍 很 多 ,但 很 少 具有 能 够 将 开发 语言 及 机 器 学 
习 理论 紧密 结合, 利用 开源 技术 ,采用 类 似 " 实 训 " 方 式 进行 实践 教学 的 书籍 。 而 本 书 的 
作者 根据 自己 的 学 习 经 历 及 学 习 过 程 的 体会 ,把 自己 的 学 习 经 验 充分 融入 书本 之 中 , 采 
用 由 浅 入 深 的 方法 ,结合 机 器 学 习 的 内 容 , 把 算法 学 习 的 每 一 步 都 给 读者 以 详细 展现 ， 
减少 了 学 生 的 学 习 难 度 , 加 快 了 学 生 学 习 的 进度 ,是 一 本 适合 在 校 学 生 及 工程 技术 人 员 
在 机 器 学 习 方面 快速 入 门 的 指导 书 。 
一 北京 邮电 大 学 软件 学 院 教授 , 教研 中 心 主任 ” 吴 国 仕 



















人 工 智 能 的 发 展 日 新 月 异 , 机 器 学 习 的 应 用 如 火 如 茶 。 ERA GERA BH AREY 
别 需 要 一 本 既 能 帮助 读者 理解 机 器 学 习 理 论 , 又 能 让 人 快速 上 手 实 践 的 入 门 级 图 书 。 
这 是 一 本 侧重 于 Phon 机 器 学 习 具 体 实 践 与 实战 的 入 门 级 好 书 。 不 同 于 多 数 专业 性 的 
书籍 ,该 书 拥有 更 低 的 阅读 门槛 。 即 便 不 是 计算 机 科学 技术 专业 出 身 的 读者 ,也 可 以 跟 
随 本 书 借助 基本 的 Python 编程 ,快速 上 手 最 新 并 且 最 有 效 的 机 器 学 习 模型 。 作 为 在 一 
线 从 事 机 器 学 习 理 论 与 技术 的 研发 人 员 ,该 书 的 作者 整合 了 当下 数据 科学 所 使 用 的 最 
为 流行 的 资源 ,如 Scikit-leam, Pandas, XGBoost 和 Tensorflow 等 ,一步 步 带领 读者 从 零 基 础 快 
速成 长 为 一 位 能 够 独立 分 析 数 据 并 且 参 与 机 器 学 习 竞 赛 的 兴趣 爱好 者 。 同 时 , RA 
的 作者 记录 下 大 量 在 机 器 学 习 实 践 过 程 中 的 心得 体会 。 全 书 深入 浅 出 ,让 人 在 实践 中 
获得 知识 。 

一 香港 科技 大 学 计算 机 与 工程 系 讲座 教授 , REE, ELAM Fellow, 
国际 人 工 智能 协会 (UA, AAA ) 常务 理事 , 中 国人 工 智 能 协会 副 理事 ， 
AM KDD Gia AOM 数 据 挖掘 委员 会 中 国 分 会 主席 杨 强 















机 器 学 习 的 每 一 次 进步 带动 了 很 多 学 科 的 大 力 发 展 。 这 是 一 本 由 在 读 博 士 生 扎 

写 , 侧 重 于 Btham 机 器 学 习 具 体 实践 和 实战 的 入 门 级 教科 书 。 不 同 于 多 数 专业 书籍 ,该 

书 的 作者 从 初学 者 的 视角 ,一 步 步 带 领 读者 从 零 基 础 快速 成 长 为 一 位 能 够 独立 进行 数 

据 分 析 并 且 参 与 机 器 学 习 竞 赛 的 兴趣 爱好 者 。 全 书 深 入 浅 出 ,特别 是 有 意 了 解 机 器 学 
习 , 又 不 想 被 复杂 的 数学 理论 困扰 的 读者 ,可 会 从 此 书 中 获 益 。 

一 苏州 大 学 计算 机 科学 与 技术 学 院 副 院 长 , 人 类 语言 技术 研究 所 所 长 ， 

特聘 教授 , 国家 杰出 青年 科学 基金 获得 者 XR 





不 同 于 多 数 专业 性 的 书籍 ,该 书 拥有 更 低 的 阅读 门槛 。 即 便 不 是 计算 机 科学 技术 
专业 出 身 的 读者 ,也 可 以 跟随 本 书 借助 Python 编程 快速 上 手 最 新 并 且 最 有 效 的 机 器 学 
习 模 型 。 如 果 说 机 器 学 习 会 主导 信息 产业 的 下 一 波浪 潮 , 那 么 在 这 波浪 潮 来 临 之 前 ,我 
们 是 否 有 必要 对 其 一 窥 究 竟 。 我 很 高 兴 看 到 有 这 样 一 本 零 基 础 实战 的 好 书 服务 广大 读 
者 ,为 普及 这 一 潮流 尽 绵薄 之 力 。 就 像 过 去 几 十 年 间 我 们 不 懈 普及 计算 机 与 互联 网 一 
样 ,人 工 智 能 ,特别 是 机 器 学 习 的 核心 思想 也 应 该 走出 象牙 塔 ,拥抱 普罗 大 众 , 尽 可 能 让 
更 多 的 兴趣 爱好 者 参与 到 实践 当中 。 

一 清华 大 学 语音 和 语言 技术 中 心 主任 , 教授 BA 
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这 是 一 本 讲解 利用 Python 进行 机 器 学 习 实 战 的 入 门 级 好 书 。 该 书 带领 刚 入 门 的 读 

者 ,从 零 开始 ,一 步 步 学 习 数 据 分 析 并 掌握 机 器 学 习 竞赛 技能 。 如 果 你 想 学 习 机 器 学 习 

方法 又 不 想 被 复杂 的 数学 理论 所 困扰 ,相信 你 会 从 本 书 中 获 益 。 该 书 适合 于 从 事 机 器 
学 习 研 究 和 应 用 的 在 校生 和 科研 工作 者 。 

一 微软 研究 院 首席 研究 员 , 自然 语言 处 理 资深 专家 周明 











致 广大 读者 : 

欢迎 各 位 购买 和 阅读 (Python 机 器 学 习 及 实践 )! 

本 书 的 编写 旨 在 帮助 大 量 对 机 器 学 习 和 数据 挖掘 应 用 感 兴 趣 的 读者 朋友 ,整合 并 实 
践 时 下 最 流行 的 基于 Python 语言 的 程序 库 , 如 Scikit-learn, Pandas, NLTK, gensim, 
XGBoost, Tensorflow 等 ;针对 现实 中 的 科研 问题 ,甚至 是 Kaggle 竞赛 (当前 世界 最 流行 
的 机 器 学 习 竞 赛 平台 ) 中 的 分 析 任务 ,快速 搭建 有 效 的 机 器 学 习 系统 。 

读者 在 阅读 了 几 个 章节 之 后 ,就 会 发 现 这 本 书 的 特别 之 处 。 作 者 力求 减少 读者 对 编 
程 技 能 和 数学 知识 的 过 分 依赖 ,进而 降低 理解 本 书 与 实践 机 器 学 习 模型 的 门槛 ;并 试图 让 
更 多 的 兴趣 爱好 者 体会 到 使 用 经 典 模型 ,乃至 更 加 高 效 的 方法 解决 实际 问题 的 乐趣 。 同 
时 ,作者 对 书 中 每 一 处 的 关键 术语 都 提供 了 标准 的 英文 表述 ,也 方便 读者 快速 查阅 和 理解 
相关 的 英文 文献 。 

由 于 本 书 不 涉及 对 大 量 数 学 模型 和 复杂 编程 知识 的 讲解 ,因此 受众 非常 广泛 。 这 其 
中 就 包括 : 在 互联 网 IT 相关 领域 从 事 机 器 学 习 和 数据 挖掘 相关 任务 的 研发 人 员 ; 于 高 
校 就 读 的 博士 .硕士 研究 生 ,甚至 是 对 计算 机 编程 有 初步 了 解 的 本 科 生 ;以 及 对 机 器 学 习 
与 数据 挖掘 竞赛 感 兴趣 的 计算 机 业余 爱好 者 等 。 

感激 父母 长 久 以 来 对 我 的 关爱 。 也 非常 感谢 我 在 清华 大 学 和 纽约 大 学 的 导师 们 : 郑 
方 .周强 以 及 Ralph Grishman 教授 ,对 于 我 利用 业余 时 间 编 写本 书 的 理解 和 支持 。 特 别 
致谢 纽约 大 学 的 Emma Zhu 同学 ,在 我 写 书 期 间 所 给 予 计算 设备 的 帮助 。 最 后 ,感谢 中 
国 国家 留学 基金 委 为 本 人 在 美国 留学 期 间 所 提供 的 生活 资助 。 

最 后 ,里 心地 希望 各 位 读者 朋友 能 够 从 本 书 获 益 , 同 时 这 也 是 对 我 最 大 的 鼓励 和 支 
持 。 全 书 代 码 下 载 地 址 为 : http://pan. baidu. com/s/1bGp15G。 对 于 书 中 的 错误 ,欢迎 
大 家 批评 指正 ,并 发 送 至 电邮 : fanmiao. cslt. thu(? gmail. com。 我 们 会 在 本 书 的 勘误 网 站 





https: //coding. net/u/fanmiao thu/p/Python ML and Kaggle/topic 上 记录 下 您 的 重 
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简 jr 篇 


本 章 介绍 机 器 学 习 的 基本 理论 和 必要 的 编程 准备 。 首 先 . 借 由 美国 卡 内 基 梅 隆 大 学 
(Carnegie Mellon University) 著 名 教授 Tom Mitchell 对 机 器 学 习 (Machine Learning) 的 
经 典 定义 ,在 “1.1 机 器 学 习 综 述 ” 节 中 进行 阐述 ,并 力求 通俗 易 慌 。 然 后 以 * 良 /恶性 乳腺 
瘤 肿瘤 预测 ”问题 为 实例 ,向 读者 朋友 更 加 细致 地 痢 析 机 器 学 习 理 论 中 的 关键 概念 。 而 
后 ,在 “1.2 Python 编程 库 ” 节 中 解释 之 所 以 选择 Python 搭建 机 器 学 习 平台 的 原因 和 优 
势 ,同时 为 读者 朋友 推介 一 系列 用 于 快速 搭建 机 器 学 习 系 统 的 Python 编程 库 ,并 且 这 些 
编程 库 都 会 在 本 书 的 后 续 章节 中 详 加 讨论 。“1. 3 Python 环境 配置 ” 节 将 一 步 步 教 会 大 
家 如 何在 最 常见 的 两 大 PC 操作 系统 平台 (Windows 和 Mac OS) 上 配置 所 需 的 编程 环 
境 , 包 括 如 何 架 设 Python 2. x 解释 器 环境 和 所 需 的 编程 库 等 。 最 后 ,利用 配置 好 的 编程 
环境 ,在 “1. 4 Python 编程 基础 ” 节 中 ,我 们 要 向 读者 朋友 提供 这 门 当 下 最 流行 的 计算 机 
编程 语言 的 编程 规范 和 基本 要 素 讲解 ,目的 在 于 方便 各 位 理解 和 进一步 实践 本 书后 续 的 
代码 。 


»> 11 机 器 学 习 综述 


机 器 学 习 是 一 门 既 * 古 老 ” 又 “新 兴 ” 的 计算 机 科学 技术 ,隶属 于 人 工 智能 (Artificial 
Intelligence) 研 究 与 应 用 的 一 个 分 支 。 

早 在 计算 机 发 明之 初 ,一 些 科学 家 就 开始 构想 拥有 一 台 可 以 具备 人 类 智慧 的 机 器 。 
这 其 中 就 包括 计算 机 结构 理论 的 先驱 .人 工 智 能 之 父 艾 伦 . 麦 席 森 .图 灵 (Alan 
Mathison Turing)。 图 灵 在 1950 年 发 表 的 论文 (计算 机 器 与 智能 》(Computing 
Machinery and Intelligence) .中 提出 了 有 具 有 开创 意义 的 “图 灵 测 试 ”"(Turing Test), H 
来 判断 一 人 台 计 算 机 是 否 达到 具备 人 工 智能 的 标准 。 我 们 将 有 关 描 述 * 图 灵 测 试 "的 原文 节 
选 如 下 : 





The new form of the problem can be described in terms of a game which we 
call the" imitation game". It is played with three people, a man (A), a woman 
(B), and an interrogator (C) who may be of either sex. The interrogator stays 
ina room apart front the other two. The object of the game for the interrogator 
is to determine which of the other two is the man and which is the woman. 

We now ask the question, "What will happen when a machine takes the part 
of A in this game?" Will the interrogator decide wrongly as often when the 
game is played like this as he does when the game is played between a man and a 


woman? These questions replace our original , "Can machines think?” 
这 段 英文 原文 的 意思 概括 来 讲 就 是 :“ 如 果 通 过 问答 这 种 
方式 ,我 们 已 经 无 法 区 分 对 话 那 端 到 底 是 机 器 还 是 人 类 ,那么 (8) (S) 
就 可 以 说 这 样 的 机 器 已 经 具备 人 工 智能 .”, 如 图 1-1 所 示 。 尽 a Q 
B 


管 仍然 有 一 些 科学 家 并 不 完全 赞同 这 种 测试 标准 ;但 是 不 得 不 ^ 
承认 ,在 计算 机 刚刚 发 明 不 到 10 年 的 时 间 里 ,图 灵 能 够 具有 这 一 一 一 一 二 一 一 
种 前 脆性 的 构想 ,甚至 为 我 们 提供 了 用 来 测试 人 工 智 能 的 蓝 
图 ,是 极为 难能可贵 的 。 Q 

而 机 器 学 习 , 作 为 人 工 智能 的 分 支 ,从 20 世纪 50 年 代 开 


始 ,也 历经 了 儿 次 具有 标志 性 的 事件 ,这 其 中 包括 ， 1959 AF 


国 的 前 IBM 员工 塞 缀 尔 (Arthur Samuel) 开 发 了 一 个 西洋 棋 。 ”图 1-1 图 灵 测试 
程序 。 这 个 程序 可 以 在 与 人 类 棋 手 对 弈 的 过 程 中 ,不 断 改善 自 
己 的 棋艺 。 在 4 年 之 后 ,这 个 程序 战胜 了 设计 者 本 人 ;并 且 又 过 了 3 年 ,战胜 了 美国 一 位 
保持 8 年 常 胜 不 败 的 专业 棋 手 。1997 年 ,IBM 公司 的 深蓝 (Deep Blue) 超 级 计算 机 在 国 
际 象棋 比赛 中 力克 俄罗斯 (前 苏联 ) 专 业 大 师 卡 斯 帕 罗 夫 (Garry Kimovich Kasparov). H 
此 引起 了 全 世界 从 业者 的 瞩目 。 同 样 是 IBM 公司 .于 2011 年 ,她 的 沃 森 深度 问答 系统 
(Waston DeepQA) 在 美国 知名 的 百科 知识 问答 电视 节目 (Jeopardy) 中 一 举 击败 多 位 优秀 
的 人 类 选手 成 功 夺冠 ,又 使 得 我 们 朝 着 达成 “图 灵 测 试 ? 更 近 了 一 步 。 最 近 的 一 轮 浪潮 来 
自 于 深度 学 习 (Deep Learning) 的 兴起 ,也 就 是 在 笔者 正在 写 这 本 书 期 间 , 谷 歌 公 司 
DeepMind 研究 团队 正式 宣布 5 其 创造 和 撰写 的 机 器 学 习 程序 AlphaGo® 以 4 : 1 的 总 
比分 击败 了 世界 顶级 围棋 选手 李 世 石 ,见证 了 人 工 智能 的 极 大 进步 。 

按照 机 器 学 习 理 论 先 驱 、. 塞 氢 尔 先生 的 说 法 ,他 并 没有 编写 具体 的 程序 告诉 西洋 棋 程 


© https://en. wikipedia. org/wiki/ AlphaGo 


序 如 何 行 棋 。 事 实 上 ,这 也 是 不 可 能 的 。 因 为 下 棋 策 略 千变万化 ,我 们 无 法 通过 编写 完备 
的 ,哪怕 是 固定 的 执行 规程 来 对 战 人 类 棋 手 。 从 塞 缪 尔 的 西洋 棋 程 序 ,到 谷歌 的 
AlphaGo, 我 们 可 以 总 结 出 机 器 学 习 系 统 具 备 如 下 特点 : 

。 许 多 机 器 学 习 系 统 所 解决 的 都 是 无 法 直接 使 用 固定 规则 或 者 流程 代码 完成 的 问 
题 ,通常 这 类 问题 对 人 类 而 言 却 很 简单 。 比 如 ,计算 机 和 手机 中 的 计算 器 程序 就 
不 属于 具备 智能 的 系统 ,因为 里 面 的 计算 方法 都 有 清楚 而 且 固 定 的 规程 ;但 是 ,如 
果 要 求 一 台 机 器 去 辨别 一 张 相片 中 都 有 哪些 人 或 者 物体 ,这 对 我 们 人 类 来 讲 非常 
容易 ,然而 机 器 却 非常 难 做 到 。 
所 谓 具备 “学习 ” 能 力 的 程序 都 是 指 它 能 够 不 断 地 从 经 历 和 数据 中 吸取 经 验 教训 ， 
从 而 应 对 未 来 的 预测 任务 。 我 们 习惯 地 把 这 种 对 未 知 的 预测 能 力 叫 做 泛 化 力 
(Generalization) 。 
机 器 学 习 系 统 更 加 诱 人 的 地 方 在 于 , 它 具 备 不 断 改 善 自身 应 对 具体 任务 的 能 力 。 
我 们 习惯 称 这 种 完成 任务 的 能 力 为 性 能 (Performance)。 塞 缪 尔 的 西洋 棋 程 序 和 
谷歌 的 AlphaGo 都 是 典型 的 借助 过 去 对 弈 的 经 验 或 者 棋谱 ,不 断 提高 自身 性 能 
的 机 器 学 习 系 统 。 

尽管 我 们 通过 西洋 棋 程 序 的 例子 总 结 了 一 些 机 器 学 习 系 统 所 具备 的 特性 ,但 是 作者 
仍然 喜欢 引述 美国 卡 内 基 梅 隆 大 学 (Carnegie Mellon University) 机 器 学 习 研 究 领 域 的 著 
名 教授 Tom Mitchell 的 经 典 定义 外 来 作为 阐述 机 器 学 习 理论 的 开篇 : 


A program can be said to learn from experience E with respect to some class 


of tasks T and performance measure P. if its performance at tasks in T, as 


measured by P, improves with experience E. 


真 的 是 令 人 称道 的 表述 ,而 且 带 有 英文 独特 的 韵脚 和 节律 。 我 们 尝试 翻译 一 下 : 如 
果 一 个 程序 在 使 用 既 有 的 经 验 (E) 执 行 某 类 任务 (T) 的 过 程 中 被 认定 为 是 “具备 学 习 能 力 
的 ”, 那 么 它 一 定 需要 展现 出 : 利用 现 有 的 经 验 (E) ,不 断 改善 其 完成 既定 任务 (T) 的 性 能 
(P) 的 特质 。 

下 面 ,我 们 会 对 其 中 的 三 个 关键 术语 : 任务 (Task ) , 83$ (Experience) ,性 能 (Performance) 
逐一 进行 剖析 ,并 将 一 个 “ 良 /恶性 乳腺 癌 肿 瘤 预测 ”的 经 典 机 器 学 习 问 题 引 作 开篇 实例 。 


1.1.1 任务 


机 器 学 习 的 任务 种 类 有 很 多 ,本 书 侧重 于 对 两 类 经 典 的 任务 进行 讲解 与 实践 : 监督 
学 习 (Supervised Learning) 和 无 监督 学 习 (Unsupervised Learning)。 其 中 ,监督 学 习 关 
注 对 事物 未 知 表 现 的 预测 .一 般 包 括 分 类 问题 (Classification) 和 回归 问题 (Regression); 
无 监督 学 习 则 倾向 于 对 事物 本 身 特性 的 分 析 ,常用 的 技术 包括 数据 降 维 (Dimensionality 
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Reduction) MRX [a] i (Clustering) $, 

分 类 问题 ,顾名思义 , 便 是 对 其 所 在 的 类 别 进行 预测 。 类 别 既 是 离散 的 ,同时 也 是 预 
先知 道 数量 的 。 比 如 ,根据 一 个 人 的 身高 .体重 和 三 围 等 数据 ,预测 其 性 别 ; 性 别 不 仅 是 离 
散 的 ( 男 、 女 ), 同 时 也 是 预先 知晓 数量 的 。 或 者 ,根据 一 打 高 尾 花 的 花瓣 、 花 莹 的 长 宽 等 数 
据 , 判 断 其 属于 哪个 蓄 尾 花 亚 种 ;高 尾 花 亚 种 的 种 类 与 数量 也 满足 离散 和 预先 知晓 这 两 项 
条 件 ,因此 也 是 一 个 分 类 预测 问题 ?。 

回归 同样 是 预测 问题 ,只 是 预测 的 目标 往往 是 连续 变量 。 比 如 ,根据 房屋 的 面积 、 地 
理 位 置 .建筑 年 代 等 进行 销售 价格 的 预测 ,销售 价格 就 是 一 个 连续 变量 。 

数据 降 维 是 对 事物 的 特性 进行 压缩 和 筛选 ,这 项 任务 相对 比较 抽象 。 如 果 我 们 没有 
特定 的 领域 知识 ,是 无 法 预先 确定 采样 哪些 数据 的 ;而 如 今 , 传 感 设备 的 采样 成 本 相对 较 
低 , 相 反 ,筛选 有 效 信息 的 成 本 更 高 。 比 如 ,在 识别 图 像 中 人 脸 的 任务 中 ,我 们 可 以 直接 读 
取 到 图 像 的 像素 信息 。 若 是 直接 使 用 这 些 像素 信息 ,那么 数据 的 维度 会 非常 高 ,特别 是 在 
图 像 分 辨 率 越 来 越 高 的 今天 。 因 此 ,我 们 通常 会 利用 数据 降 维 的 技术 对 图 像 进行 降 维 , 保 
留 最 具有 区 分 度 的 像素 组 合 。 

聚 类 则 是 依赖 于 数据 的 相似 性 ,把 相似 的 数据 样本 划分 为 一 个 筷 。 不 同 于 分 类 问题 ， 
我 们 在 大 多 数 情况 下 不 会 预先 知道 徐 的 数量 和 每 个 徐 的 具体 含义 。 现 实生 活 中 ,大 型 电 
子 商 务 网 站 经 常 对 用 户 的 信息 和 购买 习惯 进行 聚 类 分 析 , 一 旦 找到 数量 不 菲 并 且 背 景 相 
似 客户 群 , 便 可 以 针对 他 们 的 兴趣 投放 广告 和 促销 信息 。 

至 此 ,根据 上 面 的 描述 ,读者 朋友 便 可 以 确定 “ 良 /恶性 乳腺 癌 肿 瘤 预 测 ” 的 问题 属于 
二 分 类 任务 。 待 预测 的 类 别 分 别 是 良性 乳腺 癌 肿 瘤 和 恶性 乳腺 癌 肿 瘤 。 通 常 ,我 们 使 用 
离散 的 整数 来 代表 类 别 。 如 表 1-1 所 示 光 肿瘤 类 型 "一列 列 出 了 肿瘤 的 类 型 : 0 代表 良性 
肿瘤 ,1 代表 恶性 肿瘤 。 
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O 拓展 小 贴 士 1: 这 里 同时 也 暴露 出 一 个 分 类 问题 的 缺陷 ,就 是 所 有 需要 预测 的 类 别 都 是 已 知 的。 如 果 是 新 物种 ,我 们 便 无 法 根据 
现 有 经 验 进行 判断 。 常 见 的 做 法 是 对 数据 样本 的 分 类 表现 打分 ;对 于 没有 满足 赣 值 设 定 的 数据 样本 ,就 需要 对 其 做 进一步 分 析 , 甚 至 要 求 
人 工 参 与 鉴定 。 

Q ”拓展 小 贴 士 2: 为 便于 展示 ,这 里 我 们 只 使 用 了 原 数据 的 一 小 部 分 。 完 整 的 数据 下 载 链接 为 : https://archive. ics. uci, edu/ml/ 


machine-learning-databases/breast-cancer-wisconsin/ breast-cancer-wisconsin. data 





1.1.2 经 验 


我 们 习惯 性 地 把 数据 视 作 经 验 ;事实 上 ,只 有 那些 对 学 习 任务 有 用 的 特定 信息 才 会 被 
列 入 考虑 范围 。 而 我 们 通常 把 这 些 反 映 数 据 内 在 规律 的 信息 叫做 特征 (Feature)。 比 如 ， 
在 前 面 提 到 的 人 脸 图 像 识 别 任 务 中 ,我 们 很 少 直接 把 图 像 最 原始 的 像素 信息 作为 经 验 交 
给 学 习 系 统 ;而 是 进一步 通过 降 维 ,其 至 一 些 更 为 复杂 的 数据 处 理 方法 得 到 更 加 有 助 于 人 
脸 识别 的 轮廓 特征 。 

对 于 监督 学 习 问题 ,我 们 所 拥有 的 经 验 包括 特征 和 标记 /目标 (Label/Target) 两 个 部 
分 。 我 们 一 般 用 一 个 特征 向 量 (Feature Vector) 来 描述 一 个 数据 样本 ;标记 /目标 的 表现 
形式 则 取决 于 监督 学 习 的 种 类 。 

无 监督 学 习 问 题 自然 就 没有 标记 /目标 ,因此 也 无 法 从 事 预 测 任 务 , 却 更 加 适合 对 数 
据 结构 的 分 析 。 正 是 这 个 区 别 , 我 们 经 常 可 以 获得 大 量 的 无 监督 数据 ;而 监督 数据 的 标注 
因为 经 常 耗费 大 量 的 时 间 金钱 和 人 力 ,所 以 数据 量 相对 较 少 。 

另外 ,更 为 重要 的 是 ,除了 标记 /目标 的 表现 形式 存在 离散 、 连 续 变 量 的 区 别 , 从 原始 
数据 到 特征 向 量 转化 的 过 程 中 也 会 遭遇 多 种 数据 类 型 : 类 别 型 (Categorical) 特 征 , 数 值 
型 (Numerical) 特 征 ,甚至 是 缺失 的 数据 (Missing Value) 等 。 实 际 操 作 过 程 中 ,我 们 都 需 
要 把 这 些 特征 转化 为 具体 的 数值 参与 运算 ,这 里 暂 不 过 多 交代 , 当 我 们 在 后 面 的 实例 中 由 
到 时 会 具体 说 明 。 

在 “ 良 / 恶 性 乳腺 癌 肿 瘤 预测 ”问题 中 ,如 表 1-1 所 示 , 我 们 所 使 用 的 经 验 有 两 个 维度 
的 特征 了 肿块 厚度 (Clump Thickness) 和 细胞 尺寸 (Cell Size) ; 除 此 之 外 ,还 有 对 应 肿瘤 
类 型 。 而 且 , 每 一 行 都 是 一 个 独立 的 样本 。 我 们 所 要 做 的 便 是 让 我 们 的 学 习 模 型 从 上 述 
的 经 验 中 习 得 如 何 判别 肿瘤 的 类 型 。 我 们 通常 把 这 种 既 有 特征 ,同时 也 带 有 目标 /标记 的 
数据 集 称 作 训练 集 (Training Seo ,用 来 训练 我 们 的 学 习 系 统 。 这 里 我 们 拥有 524 条 独立 
的 用 于 训练 的 乳腺 瘤 肿瘤 样本 数据 。 


1.1.3 性 能 


所 谓 性 能 , 便 是 评价 所 完成 任务 质量 的 指标 。 为 了 评价 学 习 模 型 完成 任务 的 质量 ,我 
们 需要 具备 相同 特征 的 数据 ,并 将 模型 的 预测 结果 同 相对 应 的 正确 答案 进行 比 对 。 我 们 


O 拓展 小 贴 士 3: 也 许 读者 会 觉得 好 奇 ,这 里 的 肿块 厚度 和 细胞 尺寸 都 不 像 是 真正 意义 的 数值 ,更 像 是 级 别 的 划分 。 事实 上 ,的 确 是 
这 样 。 在 大 多 数 情况 下 ,我 们 都 无 法 使 用 最 原始 的 数据 进行 机 器 学 习 任务 ;更 多 的 需要 我 们 对 数据 进行 预 处 理 , 这 个 话题 后 面 会 谈 到 。 


称 这 样 的 数据 集 为 测试 集 (Testing Set)?。 而 且 更 为 重要 的 是 ,我 们 需要 保证 ,出 现在 测 
试 集中 的 数据 样本 一 定 不 能 被 用 于 模型 训练 。 简 而 言 之 ,训练 集 与 测试 集 之 间 是 彼此 互 
斥 的 。 

对 待 预 测 性 质 的 问题 ,我 们 经 常 关注 预测 的 精度 。 具 体 来 讲 : 分 类 问题 ,我 们 要 根据 
预测 正确 类 别 的 百分比 来 评价 其 性 能 ,这 个 指标 通常 被 称 作 准 确 性 (Accuracy) ;回归 问题 
则 无 法 使 用 类 似 的 指标 ,我 们 通常 会 衡量 预测 值 与 实际 值 之 间 的 偏差 大 小 2。 以 “ 良 / 恶 
性 乳腺 癌 肿 瘤 预测 ”问题 为 例 ,我 们 使 用 准确 性 作为 衡量 学 习 模型 /系统 性 能 的 指标 ,并 且 
用 于 测试 的 乳腺 癌 肿 瘤 样本 数据 有 175 条 。 

前 面 已 经 提 到 过 ,作为 一 个 学 习 系统 ,其 自身 需要 通过 经 验 , 不 断 表 现 出 改善 性 能 的 
能 力 。 为 了 说 明 这 个 观点 ,我 们 即将 以 * 良 /恶性 乳腺 瘤 肿瘤 预测 问题 为 例 ,向 读者 展示 
这 个 学 习 过 程 。 

首先 ,我 们 观察 一 下 待 测 数据 集中 175 条 肿瘤 样本 在 二 维特 征 空间 的 分 布 情况 , 如 
图 1-2 所 示 。X 代表 恶性 肿瘤 ，O 代表 良性 肿瘤 。 
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图 1-2 良 /恶性 乳腺 癌 肿 瘤 测试 集 数据 分 布 ( 见 彩 图 ) 


然后 我 们 随机 初始 化 一 个 二 类 分 类 器 ,这 个 分 类 器 使 用 一 条 直线 来 划分 良 /恶性 肿 
O ”拓展 小 贴 士 4: 现实 应 用 中 ,我 们 无 法 获知 测试 集 的 正确 答案 。 因 为 那 正 是 需要 通过 学 习 系统 来 预测 结果 的 数据 。 因 此 ,我 们 会 


充分 利用 已 知 目标 /标记 的 训练 集 , 并 且 后 面 的 章节 会 交代 具体 的 使 用 方法 。 
© ”拓展 小 贴 士 5: 性 能 评价 指标 因 学 习 任务 而 异 ,具体 的 评价 指标 和 计算 方法 都 会 在 对 应 的 章节 涉及 和 详细 介绍 。 


瘤 。 决 定 这 条 直线 走向 的 有 两 个 因素 : 直线 的 斜率 和 截 距 。 这 些 被 我 们 统一 称 为 模型 的 
参数 (Parameters) ,也 是 分 类 器 需要 通过 学 习 从 训练 数据 中 得 到 的 。 最 初 ,随机 初始 化 参 
数 的 分 类 器 的 性 能 表现 如 图 1-3 所 示 。 
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图 1-3 随机 参数 下 的 二 类 分 类 器 (黄色 直线 )( 见 彩 图 ) 


随 着 我 们 使 用 一 定量 的 训练 样本 ,分 类 器 所 表现 的 性 能 有 了 大 幅度 的 提升 ,如 图 1-4 
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图 1-4 使 用 10 条 训练 样本 得 到 的 二 类 分 类 器 (绿色 直线 )( 见 彩 图 ) 


与 图 1-5 所 示 , 当 学 习 10 条 训练 样本 时 ,分 类 器 的 性 能 改进 一 些 , 测 试 集 上 的 分 类 准确 性 
为 86. 9% ;继续 学 习 所 有 训练 样本 之 后 ,分 类 器 的 性 能 进一步 提升 ,在 测试 集 上 的 分 类 准 
确 性 最 终 达 到 93.7%. 
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图 1-5 使 用 所 有 训练 样本 得 到 的 二 类 分 类 器 ( 蓝 色 直线 )( 见 彩 图 ) 


综 上 ,我 们 通过 一 个 现实 生活 中 的 例子 ,向 广大 读者 详细 阐释 了 一 个 学 习 系统 的 关键 
组 成 部 分 。 在 后 续 的 章节 中 ,还 会 有 更 多 有 趣 而 实用 的 项 目 等 待 着 大 家 。 


“p12 ym 编程 库 


这 一 节 ,我 们 需要 向 读者 解释 为 什么 要 使 用 Python 从 事 机 器 学 习 任务 ,并 且 为 大 家 
推介 几 种 最 为 常用 ,同时 也 是 功能 强大 的 编程 库 。 本 书 将 围绕 这 些 编程 库 , 教 会 大 家 如 何 
快速 搭建 机 器 学 习 的 系统 ,甚至 用 于 竞赛 实战 。 


1.2.1 为 什么 使 用 Python 


有 兴趣 的 读者 如 果 翻 阅 英文 字典 查找 Python 的 含义 ,十 有 八 九 会 得 到 “蟒蛇 ”这 个 解 
Te. 事实 上 ,就 Python 的 命名 和 起 源 曾 有 一 段 锡 闻 。 首 先 ,这 门 编程 语言 框架 设计 和 解 
释 器 的 开发 , 均 是 由 一 名 荷兰 籍 的 计算 机 从 业者 Guido von Rossum 在 1989 年 的 圣诞 候 
期 开始 的 。 而 Python 这 个 名 字 来 源 于 Guido 本 人 非常 喜爱 的 一 部 在 20 世纪 60 一 70 年 
代 BBC 播放 的 室内 情景 幽默 剧 Monty Python’s Flying Circus 


稍微 了 解 一 点 计算 机 发 展 历史 的 读者 ,一 定 听 说 过 汇编 .甚至 机 器 语言 。 那 个 年 代 ， 
程序 员 的 工作 生活 远 没 有 像 现 在 这 样 滋润 : 在 加 州 硅谷 一 个 阳光 明媚 的 工作 日 ,现今 的 
程序 员 可 以 选择 不 去 自己 所 在 的 公司 ,而 是 坐 在 一 间 和 舒适 的 咖啡 厅 里 ,打开 自己 的 苹果 笔 
记 本 ,远程 连接 到 隶属 于 自己 的 一 台 性 能 优越 的 计算 服务 器 ,开始 一 天 的 工作 ;相反 , 那 时 
候 的 程序 员 几 乎 需要 整 天 对 着 一 台 释然 作 响 的 庞然大物 ,迫使 自己 像 它 一 样 思考 , 写 出 更 
加 贴近 机 器 指令 的 程序 ,甚至 还 要 花费 更 大 的 精力 ,根据 有 限 的 计算 资源 做 各 种 各 样 的 程 
序 优化 ,最 大 限度 地 榨取 计算 机 的 性 能 。 

Python 的 作者 Guido 苦恼 于 这 样 的 工作 状态 并 希望 改变 。 因 此 他 决心 设计 一 种 兼 
顾 可 读 性 和 易 用 性 的 编程 语言 。 因 此 ,Python 将 许多 高 级 编程 语言 的 优点 集 于 一 身 : 不 
仅 可 以 像 脚本 语言 (Script Languages) 一 样 ,用 非常 精练 易 读 的 寥寥 几 行 代码 来 完成 一 个 
需要 使 用 C 语言 通过 复杂 编码 才能 完成 的 程序 任务 ;而 且 还 具备 面向 对 象 编程 语言 
(Object-oriented Programming Languages) 的 各 式 各 样 的 强大 功能 。 不 同 于 C 语言 等 编 
译 型 语言 (Compiled Languages) ,Python 作为 一 门 解释 型 诸 言 (Interpreted Languages) , 
也 非常 便于 调试 代码 。 同 时 ,Python 免费 使 用 和 跨 平台 执行 的 特性 ,也 为 这 门 编程 语言 
带 来 了 越 来 越 多 开源 库 的 贡献 者 和 使 用 者 。 许 多 著名 的 公司 ,如 Google, Dropbox 等 ,其 
至 将 Python 纳入 其 内 部 最 为 主要 的 开发 语言 。 因 此 ,如 果 是 初 涉 计 算 机 编程 的 读者 ,学 
习 Python 诸 言 无 疑 明智 之 选 ;而 本 书 借 由 Python 编程 语言 来 深入 介绍 机 器 学 习 话 题 ， 
也 显得 更 为 高 效 与 易 读 。 


1.2.2 Python 机 器 学 习 的 优势 


Python 程序 语言 与 机 器 学 习 实 践 可 以 称 得 上 是 * 珠 联 壁 合 "。 因 为 使 用 Python 编程 
技巧 ,接触 甚至 掌握 机 器 学 习 的 经 典 算法 至 少 有 以 下 4 项 优势 。 

。 方便 调试 的 解释 型 语言 : Python 是 一 门 解释 型 编程 语言 ,与 Java 类 似 , 源 代码 都 
要 通过 一 个 解释 器 (Interpreter) ,转换 为 独特 的 字 节 码 。 这 个 过 程 不 需要 保证 全 
部 代码 一 次 性 通过 编译 ;相反 ,Python 解释 器 逐 行 处 理 这 些 代码 。 因 此 方便 了 调 
试 过 程 ,也 特别 适合 于 使 用 不 同 机 器 学 习 模 型 进行 增 量 式 开发 。 
跨 平台 执行 作业 : 上 面 提 到 Python 的 源 代码 都 会 先 解释 成 独特 的 字 节 码 , 然 后 
才 会 被 运行 。 从 另 一 个 角度 讲 , 只 要 一 个 平台 安装 有 用 于 运行 这 些 字 节 码 的 虚拟 
机 ,那么 Python 便 可 以 执行 跨 平台 作业 。 这 点 不 同 于 C++ 这 类 编译 型 语言 ,但 
是 却 和 Java 虚拟 机 很 相似 。 由 于 机 器 学 习 任务 广泛 地 执行 在 多 种 平台 ,因此 以 
Python 这 类 解释 型 语言 作为 编码 媒介 也 不 失 为 一 种 好 的 选择 。 
广泛 的 应 用 编程 接口 : 除了 那些 被 用 于 编程 人 员 自 行 开发 所 使 用 的 第 三 方程 序 
库 以 外 ,业界 许多 著名 的 公司 都 拥有 用 于 科研 和 商业 的 云 平台 ,如 亚马逊 的 AWS 


(Amazon Web Services) .谷歌 的 Prediction API 等 。 这 些 平台 同时 也 面向 互联 
网 用 户 提供 机 器 学 习 功 能 的 Python 应 用 编程 接口 (Application Programming 
Interface) 。 许 多 平台 的 机 器 学 习 功 能 模块 不 需要 用 户 来 编写 ,只 需要 用 户 像 拱 
建 积 木 一 样 ,通过 Python 语言 并 且 遵 照 API 的 编写 协议 与 规则 ,把 各 个 模块 串 
接 起 来 即 可 。 

丰富 完备 的 开源 工具 包 : 软件 工程 中 有 一 个 非常 重要 的 概念 , 便 是 代码 与 程序 的 
重用 性 。 为 了 构建 功能 强大 的 机 器 学 习 系统 ,如 果 没 有 特殊 的 开发 需求 ,通常 情 
况 下 ,我 们 都 不 会 从 零 开始 编程 。 比 如 ,学 习 算法 中 经 常会 涉及 的 向 量 计算 ;如 果 
Python 中 没有 直接 提供 用 于 向 量 计算 的 工具 ,我 们 还 需要 自己 花费 时 间 编 写 这 
样 的 基础 功能 吗 ? 答案 是 否定 的 。Python 自身 免费 开源 的 特性 使 得 大 量 专 业 、 
其 至 天 才 型 的 编程 人 员 ,参与 到 Python 第 三 方 开源 工具 包 ( 程 序 库 ) 的 构建 中 。 
更 为 可 喜 的 是 ,大 多 数 的 工具 包 ( 程 序 库 ) 都 允许 个 人 免费 使 用 ,乃至 商用 。 这 其 
中 就 包括 本 书 主要 使 用 的 多 个 用 于 机 器 学 习 的 第 三 方程 序 库 ,如 便于 向 量 、 和 矩阵 
和 复杂 科学 计算 的 NumPy 与 SciPy; 仿 MATLAB 样式 绘图 的 Matplotlib; 包 含 
大 量 经 典 机 器 学 习 模 型 的 Scikit-learn; 对 数据 进行 快捷 分 析 和 处 理 的 Pandas; 以 
及 集成 了 上 述 所 有 第 三 方程 序 库 的 综合 实践 平台 Anaconda, 


1.2.3 NumPy & SciPy 


NumPy9J& 4 45 fit Jj ERI Python 编程 库 。NumPy 除了 提供 一 些 高 级 的 数学 运算 


机 制 以 外 ,还 具备 非常 高 效 的 向 量 和 和 矩 阵 运算 功能 。 这 些 功 能 对 于 机 器 学 习 的 计算 任务 
是 尤为 重要 的 。 因 为 不 论 是 数据 的 特征 表示 也 好 ,还 是 参数 的 批量 计算 也 好 ,都 离 不 开 更 
加 方便 快捷 的 矩阵 和 向 量 计算 。 而 NumPy 更 为 突出 的 是 它 内 部 独到 的 设计 ,使 得 处 理 
这 些 矩 阵 和 向 量 计算 比 起 一 般 程序 员 自 行 编写 ,甚至 是 Python 自 带 程序 库 的 运行 效率 都 
要 高 出 许多 。 


包 。 


SciPy@ 则 是 在 NumPy 的 基础 上 构建 的 更 为 强大 ,应 用 领域 也 更 为 广泛 的 科学 计算 
正 是 出 于 这 个 原因 ,SciPy 需要 依赖 NumPy 的 支持 进行 安装 和 运行 。 对 这 两 个 编程 


库 感 兴趣 的 读者 ,可 以 参考 下 面 这 个 在 线 教程 详细 学 习 它们 的 用 法 : https://docs. 


scipy. org/doc/numpy-dev/user/quickstart. html, 


QD http://www. numpy. org/ 
Q http://www. scipy. org/ 


1.2.4 Matplotlib 


众所周知 ,MATLAB 作为 一 款 功能 强劲 , 集 数据 分 析 和 展现 于 一 体 的 商业 软件 , 受 
到 无 数 自然 科学 工作 者 的 青睐 。 然 而 在 多 数 情况 下 ,只 有 高 等 学 校 . 科 研 机 构 和 大 型 公司 
才能 负担 得 起 其 昂贵 的 正版 许可 证 。 就 普通 个 人 对 数据 展现 方面 的 需求 而 言 ,我 们 更 加 
希望 有 类 似 MATLAB 的 绘图 功能 ,但 是 允许 免费 使 用 的 Python 程序 库 。Matplotlib?， 
作为 一 款 Python 编程 环境 下 免费 使 用 的 绘图 工具 包 , 因 为 其 工作 方式 和 绘图 命令 几乎 和 
MATLAB 类 似 , 所 以 立刻 便 成 了 本 书 的 首选 。 欲 了 解 详情 的 读者 可 以 查阅 Matplotlib 
的 在 线 文档 http: //matplotlib. org/contents. html, 


1.2.5 Scikit-learn 


Scikit-learn? 是 本 书 所 使 用 的 核心 程序 库 四 ,依托 于 上 述 几 种 工具 包 ,封装 了 大 量 经 
典 以 及 最 新 的 机 器 学 习 模 型 。 该 项 目 最 早 由 David Cournapeau 在 2007 年 Google 夏季 
代码 节 中 提出 并 启动 。 后 来 作为 Matthieu Brucher 博士 工作 的 一 部 分 得 以 延续 和 完善 。 
现在 已 经 是 相对 成 熟 的 机 器 学 习 开 源 项 目 。 近 十 年 来 ,有 超过 20 位 计算 机 专家 参与 其 代 
码 的 更 新 和 维护 工作 。 作 为 一 款 用 于 机 器 学 习 和 实践 的 Python 第 三 方 开源 程序 库 ， 
Scikit-learn 无 疑 是 成 功 的 。 无 论 是 其 出 色 的 接口 设计 ,还 是 高 效 的 学 习 能 力 , 都 使 它 成 
为 本 书 介绍 的 核心 工具 包 。 另 外 Scikit-learn 还 提供 了 详细 的 英文 版 使 用 文档 http:// 
scikit-learn. org/stable/user guide. html, 也 是 值得 参考 的 辅助 学 习 材 料 。 


1.2.6 Pandas 


如 果 读 者 有 机 会 采访 在 一 线 从 事 机 器 学 习 应 用 的 研发 人 员 , 问 他 们 究竟 在 机 器 学 习 
的 哪个 环节 最 耗费 时 间 , 恺 怕 多 数 人 会 很 无 奈 地 回答 您 :“ 数 据 预 处 理 。 "事实 上 ,多 数 在 
业界 的 研发 团队 往往 不 会 投入 太 多 精力 从 事 全 新 机 器 学 习 模型 的 研究 ;而 是 针对 具体 的 
项 目 和 特定 的 数据 ,使 用 现 有 的 经 典 模型 进行 分 析 。 这 样 一 来 ,时 间 多 数 被 花费 在 处 理 数 
据 , 甚 至 是 数据 清洗 的 工作 上 ,特别 是 在 数据 还 相对 原始 的 条 件 下 。Pandas@ 是 一 款 针对 
于 数据 处 理 和 分 析 的 Python 工具 包 , 具 体 文档 见 http://pandas. pydata. org/pandas- 
docs/stable/ 。 其 中 实现 了 大 量 便于 数据 读 写 清洗 .填充 以 及 分 析 的 功能 。 这 样 就 帮助 


© http: //matplotlib. org/ 
@ http; //scikit-learn, org/ 
®©  http://pandas. pydata. org/ 


研发 人 员 节 省 了 大 量 用 于 数据 预 处 理工 作 的 代码 ,同时 也 使 得 他 们 有 更 多 的 精力 专注 于 
有 具体 的 机 器 学 习 任 务 。 


1.2.7 Anaconda 


读 到 这 里 ,也 许 会 觉得 前 面 介 绍 的 许多 工具 包 相互 之 间或 多 或 少 都 存在 着 一 些 依赖 
关系 ,一 时 间 也 很 难 弄 明白 ;而 且 实际 操作 也 可 能 比较 复杂 。 是 否 有 一 个 集成 平台 ,一 旦 
安装 便 不 需要 考虑 这 些 琐碎 的 事情 了 呢 ? 答案 是 : 既然 有 需求 ,那么 一 定 有 ! 对 于 想 快 
速 上 手 的 初学 者 而 言 ,笔者 推荐 使 用 Anaconda? 平台 ,只 要 下 载 并 安装 对 应 操作 系统 以 
及 Python 解释 器 版 本 的 程序 包 , 便 可 以 一 次 性 获得 300 多 种 用 于 科学 和 工程 计算 相关 任 
务 的 Python 编程 库 的 支持 ;本 书 所 涉及 的 编程 库 仅 仅 是 其 冰山 一 角 。 感 兴趣 的 读者 可 以 
深入 阅读 其 文档 : https://www. continuum. io/documentation, 


n 13 ”Python 环境 配置 


从 现在 开始 ,请 读者 准备 一 台 以 Windows 或 者 Mac OS 作为 操作 系统 的 个 人 计算 
机 。 我 们 将 从 零 开 始 , 向 读者 分 别 介绍 如 何在 这 两 个 主流 的 操作 系统 平台 上 ,配置 并 且 运 
行 本 书 全 部 代码 所 需 的 Python 解释 器 ,编程 库 以 及 开发 环境 。 
这 里 需要 提前 向 读者 声明 : Python 编程 语言 有 两 个 版 本 ,分 别 是 Python 2. x 与 
Python 3. x。 因 为 一 些 * 历 史 遗 留 "2 问 题 ,使 得 这 两 个 版 本 不 仅 无 法 相互 兼容 ,而 且 就 连 
- 些 编程 语法 都 不 一 致 。 所 以 ,我 们 建议 读者 在 学 习 Python 的 时 候 ,姑且 把 它们 视 作 两 
种 不 同 的 编程 语言 。 本 书 中 所 有 编写 的 示例 代码 都 可 以 流畅 运行 于 Mac OS 的 Python 
2.7 平台 。 


1.3.1 Windows 系统 环境 


由 于 Windows 操作 系统 版 本 的 不 同 可 能 会 影响 配置 的 流程 ,因此 笔者 这 里 先 交代 一 
下 本 书 所 使 用 的 Windows 版 本 环境 : Windows 7 Ultimate 64 位 Service Pack 1 ,以 便于 
读者 参考 。 


O https://www. continuum. io/ 
© ”拓展 小 贴 士 6: 具体 的 历史 原因 很 复杂 , 感 兴趣 的 读者 可 以 阅读 Python 核心 开发 团队 成 员 Brett Cannon 发 表 的 博客 http:// 


www. snarky, ca/why-python-3-exists 





第 1 章 NAR 


1.3.1.1 Python 2.x 解释 器 安装 与 配置 


我 们 已 经 说 过 ,Python 编程 语言 有 两 个 版 本 : Python 2. x 与 Python 3. x。 这 两 个 版 
本 互 不 兼容 ,许多 初学 者 因为 忽略 了 这 一 点 而 无 法 执行 自己 的 代码 。 因 此 ,这 里 再 次 提醒 
本 书 使 用 Python 2. x 的 版 本 。 大 家 可 以 到 Python 的 官网 https://www. python. org/ 
downloads/ 自 行 下 载 ,如 图 1-6 所 示 。 官 方 网 站 也 对 版 本 做 了 区 分 ,并 且 截 至 本 书 完稿 的 
时 候 ,Python 2. x 更 新 到 2.7. 11 版 本 。 


e? python’ B SU 


About ^ Downloads ^ Documentation ^ Community Success Stories News Events 


Download the latest version for zy "9" 


Looking for Python with a different OS? Python for Win 
Mac OSX, Other 


Want to help test development versions of Python? Pre releases 





图 1-6 Python 解释 器 环境 之 Windows 版 本 下 载 官网 


但 是 考虑 到 软件 的 稳定 性 ,作者 建议 选择 前 一 个 版 本 。 同 时 ,建议 使 用 64 位 操作 系 
统 的 读者 从 链接 https://www. python. org/downloads/release/python-2710/ 选 择 下 载 
Windows x86-64 MSI installer(32 位 操作 系统 的 用 户 只 能 下 载 Windows x86 MSI 
installer, 但 是 其 后 的 安装 步骤 与 64 位 一 致 )。64 位 Python 2. 7. 10 的 安装 包 为 python- 
2.7. 10. amd64, msi, 双 击 运行 ,按照 默认 配置 ,一 路 单 击 next 按钮 即 可 完成 安装 。 

如 果 安 装 成 功 ,使 用 Windows 命令 行 输入 python, 便 可 以 看 到 如 图 1-7 所 示 的 样 例 ， 
并 伴 有 Python 特有 的 命令 提示 符 >>>. 

如 果 在 Windows 命令 行 中 输入 ERN 系统 提示 找 不 到 这 个 外 部 命令 。 那 么 读者 
在 保证 之 前 所 有 的 安装 都 正常 完成 的 前 提 下 ,可 以 右 击 “ 我 的 电脑 ”, 在 弹出 的 快捷 菜单 中 
单 击 “ 属 性 ”选项 ,选择 左边 栏 的 “高 级 系统 设置 "。 如 图 1-8 所 示 ,选择 “环境 变量 ”, 并 且 
在 下 部 “系统 变量 ”中 编辑 Path. 加 入 Python 的 安装 路 径 即 可 (默认 一 般 是 C:\ 
Python27) 。 
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图 1-7 Python 解释 器 Windows 运行 界面 ( 见 彩 图 ) 
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图 1-8 Windows 操作 系统 下 Python 环境 变量 配置 ( 见 彩 图 ) 


1.3.1.2 Python 2.x 编程 库 安装 与 配置 
接着 就 需要 配置 跟 机 器 学 习 有 关 的 一 系列 Python 的 扩展 包 了 。 不 过 在 此 之 前 ,需要 
安装 pip。 请 大 家 到 https://bootstrap. pypa. io/get-pip. py 下 载 get-pip. py 文件 ,然后 
在 该 文件 所 在 目录 下 打开 Windows 的 命令 (cmd. exe) 窗 口 , 并 且 在 提示 行 中 运 


get-pip. py 





行 python 


美国 加 州 大 学 尔 湾 分 校 的 一 个 实验 室 网 站 提供 了 大 量 用 于 Windows 平台 下 的 
Python 第 三 方 扩 展 包 下 载 http://www. lfd. uci. edu/ 一 gohlke/pythonlibs/ ,特别 实用 。 
大 家 到 里 面 去 下 载 以 cp27-none-win_amd64. whl 结尾 的 一 系列 扩展 包 , 按 照 依赖 顺序 分 
别 为 Numpy-- MKL,SciPy 和 Scikit-learn, 并 依次 在 下 载 文件 同 目录 的 cmd. exe 中 键入 
这 样 的 命令 (以 scikit_learn-0. 17-cp27-none-win amd64. whl 为 例 ) : 

python -m pip install -U scikit_learn-0. 17-cp27-none-win_amd64. whl 


安装 完 上 述 三 种 扩展 包 之 后 ,各 位 就 可 以 通过 
>>> import mmpy, scipy, skleam 


测试 并 且 使 用 它们 。 此 外 ,如 果 想 跟 本 书 示 例 一 样 使 用 Python 作 图 ,那么 就 需要 
Matplotlib。Matplotlib 同样 也 需要 一 系列 扩展 包 的 支持 ,所 有 必 备 的 库 numpy、 
dateutil、pytz、pyparsing six 等 都 能 从 刚才 推荐 的 下 载 网 站 上 检索 到 。 


1.3.1.3 Python 2.x 开发 环境 推荐 


我 们 在 准备 编写 和 运行 Python 源 代码 之 前 ,除了 可 以 在 Windows 命令 行 中 通过 输 

入 Python 调用 最 为 基本 的 解释 器 环境 外 ,还 可 以 使 用 很 多 功能 更 加 丰富 和 强大 的 集成 开 

发 环境 (Integrated Development Environment,IDE)。 这 些 免 费 的 甚至 商用 的 独立 软件 

主要 是 为 了 服务 于 专业 的 编程 人 员 ,协作 开发 更 为 大 型 的 应 用 程序 。 这 里 也 推荐 读者 在 
Windows 操作 系统 上 使 用 。 比 较 常 用 的 软件 包括 以 下 几 种 。 

* IDLE(Integrated Development and Learning Environment) : 这 款 软件 属于 免费 并 

且 轻 量 级 的 交互 式 解释 环境 ,安装 Python 解释 器 环境 就 会 附带 。IDLE 会 逐条 运 

行 代码 行 ,并 且 编程 人 员 会 当即 得 知 运 行 状 态 和 结果 ,如 图 1-9 所 示 。 由 于 其 交 

互 式 的 运行 模式 ,加 上 免费 轻 量 级 的 软件 特点 , 深 受 从 事 编程 教育 工作 者 的 喜爱 。 


= 




















Type "copyright", "credits" or "license()" for more information. 
>>> print 'Hello Everyone!! 

Hello Everyone! 

>>> 











图 1-9 Windows 操作 系统 下 Python IDLE 运行 界面 ( 见 彩 图 ) 


。 IPython: 这 是 一 款 笔记 本 风格 的 ,并 且 基 于 浏览 器 的 解释 器 环境 ,如 图 1-10 所 
示 。 一 般 在 安装 Anaconda 的 同时 就 会 附带 。 对 于 想 快速 搭建 运行 环境 并 且 实 践 
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本 书 代码 的 读者 而 言 ,作者 最 为 推荐 使 用 这 款 集成 开发 环境 。 原 因 在 于 Anaconda 
的 一 键 式 安装 (Windows 版 本 的 Anaconda 的 下 载 地 址 为 https://www. 
continuum. io/downloads# _windows) 可 以 帮助 使 用 者 一 次 性 配置 好 所 有 本 书 需 
要 的 工具 包 以 及 IPython 解释 器 环境 。 同 时 IPython 还 提供 了 非常 方便 的 互联 
网 发 布 功 能 ,可 以 随时 随地 利用 互联 网 维护 ,更 新 以 及 交流 Python 源 代码 。 
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图 1-10 IPython 解释 器 界面 ( 见 彩 图 ) 
。 PyCharm: 这 是 一 款 功能 强劲 的 商业 软件 ( 见 图 1-11) ,同时 也 提供 免费 的 社区 版 
本 (下 载 地 址 为 https 
windows)。 对 于 已 经 


//www. jetbrains. com/pycharm/download/ # section = 


悉 Python 编程 的 专业 人 士 而 言 , 使 用 这 款 软件 无 疑 会 如 









图 1-11 Windows 平台 下 Pycharm 软件 开启 界面 


RRR., HEA WE BEIC UD HR DIRE , A TRIAL X lit Python 编程 关键 词 、 
函数 以 及 工具 包 名 称 等 的 麻烦 。 


1.3.2 Mac OS 系统 环境 


同样 ,我 们 对 于 所 使 用 的 Mac OS 的 版 本 也 交代 一 下 : OS X EI Captian Version 
10. 11.2。 同 时 ,如 果 大 家 在 操作 系统 配置 方面 有 任何 疑问 ,也 欢迎 致 信 作者 的 电子 邮箱 。 


1.3.2.1 Python 2.x 解释 器 安装 与 配置 


大 多 数 较 新 的 Mac OS 都 默认 安装 Python 2. x 的 解释 器 环境 ,在 终端 (Terminal) 上 
输入 Python 得 到 如 图 1-12 所 示 的 样 例 。 
172-16-239-4:Miao Fan jieleizhu$ python 
Python 2.7.10 (default, Oct 23 2015, 18:05:06) 


[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 


图 1-12 使 用 Mac OS 终端 调用 默认 Python 解释 器 样 例 


如 果 Mac OS 没有 安装 Python 2. x, 请 前 往 这 个 链接 https://www. python. org/ 
downloads/release/python-2710/ ,并 且 根 据 Mac OS 的 版 本 选择 下 载 。 


1.3.2.2. Python 2.x 编程 库 安装 与 配置 


与 Windows 不 同 ,Mac OS 的 许多 程序 安装 在 终端 上 通过 命令 完成 更 为 方便 。 作 者 
在 这 里 推荐 Mac OS 平台 的 使 用 者 安装 pip。 首 先 打开 Mac OS 的 终端 (Terminal) ,确认 
自己 Mac OS 已 经 安装 了 Python 的 解释 器 环境 ;然后 ,在 命令 提示 符 ($) 下 输入 curl 
https://bootstrap. pypa. io/get-pip. py> get-pip. py 下 载 到 本 地 ; 接 下 来 ,在 命令 提示 符 
下 继续 输入 sudo python get-pip. py 安装 pip, 这 时 候 终端 会 提示 输入 系统 登录 密码 ,也 
就 是 开机 密码 ;输入 成 功 之 后 ,pip 就 安装 好 了 。 我 们 同样 在 图 1-13 为 大 家 提供 了 示范 性 

对 于 包括 NumPy、SciPy、Scikit-learn 以 及 Matplotlib 在 内 的 任何 相关 的 Python T. 
有 具 包 ,在 安装 完 pip 之 后 ,只 需要 在 终端 的 命令 提示 符 ($) 后 ,通过 以 下 命令 即 可 完成 : 


sudo pip install 工具 包 名 称 
比如 安装 Scikit-learn, 则 输入 sudo pip install sklearn 即 可 。 
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72- n jie py’ 
(Python 2.7.10 (default, Oct 23 2015 
(GCC 4.2.1 Compatible Apple LLVM 
IType "help", "copyright", "credit: 
»» exit() 


8.59.5)] on darwin 
more information. 
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WARNING: Improper use of the sudo command could lead to data loss 
or the deletion of important system files. Please double-check your 
[typing when using sudo. Type "man sudo" for more information. 


To proceed, enter your password, or type Ctrl-C to abort. 


Password: 
The directory '/Users/jieleizhu/Library/Caches/pip/http' or its parent directory is not ( 
wner of that directory. If executing pip with sudo, you may want sudo's -H flag. 
The directory '/Users/jieleizhu/Library/Caches/pip' or its parent directory is not owned 
[ that directory. If executing pip with sudo, you may want sudo's -H flag. 
Collecting pip 
Downloading pip-8.8.0-py2.py3-none-any.whl (1.2MB) 
1005. NENNEN | 2.28 369k8/s 
Collecting wheel 
Downloading wheel-8.26.0-py2.py3-none-any.whl (63kB) 
100 | | ok6 6.05/5 
Installing collected packages: pip, wheel 
Successfully installed pip-8.0.0 wheel-@.26.0 





图 1-13 Mac OS 下 pip 安装 步骤 ( 见 彩 图 ) 


1.3.2.3 Python 2.x 开发 环境 推荐 


前 面 介绍 了 许多 用 于 Windows 平台 的 Python 集成 开发 环境 。 这 些 IDE 同样 也 提 
HE Mac OS 的 软件 版 本 。 因 此 ,我 们 这 里 不 再 费 述 这 些 软件 的 使 用 优势 ,而 只 是 提供 这 些 
软件 Mac OS 版 本 的 下 载 地 址 。 
* Terminal; 习惯 Mac OS 的 用 户 多 数 认为 苹果 系统 的 终端 就 是 一 个 良好 的 编程 平 
人 台 , 这 点 作者 也 很 赞同 。 因 此 ,对 于 使 用 Mac OS 的 用 户 , 使 用 Python 的 IDLE. 
与 直接 在 Terminal 中 对 Python 进行 编程 差别 不 大 。 
* IPython: Mac OS 版 本 的 下 载 地 址 为 https://www. continuum. io/downloads # _ 
macosx。 
* PyCharm: Mac OS 版 本 的 下 载 地 址 为 https://www. jetbrains. com/pycharm/ 
download/ & . 





pia rym 编程 基础 


本 节 主 要 为 没有 接触 过 或 者 正在 学 习 Python 编程 的 读者 而 设 。 不 同 于 那些 完整 介 


绍 Python 编程 的 书籍 7 中 ,作者 并 没有 作 铺 陈 的 打算 ;而 是 尝试 从 本 书 的 需求 和 特点 
出 发 ,去 粗 取 精 , 提 人 炼 “干货 ”, 向 读者 介绍 足以 用 来 理解 并 且 实 践 本 书 代码 的 Python 基础 
编程 知识 ?。 


1.4.1 Python 基本 语法 


从 “1.2 Python 编程 库 ” 和 “1. 3 Python 环境 配置 ?两 节 对 Python 的 描述 中 ,对 这 门 
编程 语言 已 经 有 了 一 些 了 解 。 总 体 而 言 ,Python 代码 相对 简短 、 易 于 理解 ,并 且 具 有 交互 
性 。 下 面 是 本 书 的 第 一 段 成 功 运行 的 Python 代码 : 


[rs 1: 一 段 正确 运行 的 Python 代码 


>>> isMiGeek= True. 


>>># 如 果 您 是 一 位 机 器 学 习 爱好 者 ,系统 常规 输出 :推荐 您 购买 ( Python 机 器 学 习 及 实践 )。 

>>> if isMiGeek: 

print 'I recommend you to read "DIY Machine Leaming Systems for Kaggle Campetitions with Python 
Programming"! ' 

I reommmend you to read "DIY Machine Learning Systems for Kaggle Competitions with Python Programming"! 


>>> 


我 们 通过 上 面 的 例子 向 读者 统一 介绍 对 本 书 代码 展示 的 如 下 约定 : (代码 前 方 带 有 

二 二 二 提示 符 ) 带 有 灰色 背景 的 代码 为 输入 ,字体 为 Courier New。 字 体 加 粗 仍然 为 

Courier New, 但 是 没有 灰色 背景 的 , 视 为 常规 输出 ;其 他 设 定 同 上 ,但 是 颜色 为 红 ( 本 书 用 

深 底 纹 标 注 ) , 视 为 警告 或 者 系统 输出 。 而 在 代码 1 中 ,有 三 个 有 关 Python 编程 语法 的 关 
键 要 素 , 它 们 分 别 是 : 

。 命令 提示 符 : 代码 中 每 一 行 有 关 Python 的 编程 语句 都 由 二 二 二 作为 命令 提示 

符 。 在 Python 的 命令 行 环境 中 ,一 般 每 两 个 命令 提示 符 之 间 的 代码 都 会 当即 被 

解释 器 处 理 2。 读 者 若是 自己 实践 代码 1. 输 入 第 1 行 并 按 回 车 键 ,刚刚 输入 的 命 

令 就 会 被 解释 器 处 理 和 执行 。 如 果 没 有 语法 或 者 其 他 错误 , 便 会 看 到 下 一 个 提示 


O HRAT: 这 里 作者 需要 向 读者 说 明 的 是 ,本 书 所 介绍 的 Python 常用 编程 基础 知识 , 比 起 其 他 专业 介绍 Python 编程 的 书籍 
内 容 并 不 完备 。Python 是 一 门 内 容 非常 广泛 的 编程 语言 ,因此 ,本 书 中 提 到 的 诸如 Python 数据 类 型 和 语法 语句 等 ,并 不 能 涵盖 Python 的 


所 有 内 容 。 如 要 深入 了 解 Python 高 级 编程 ,建议 读者 选择 阅读 [3],[4] 等 书籍 。 


© 拓展 小 贴 士 8: MRH PyCharm 或 者 [Python Notebook 等 集成 开发 平台 ,我 们 则 看 不 到 Python 命令 行 提示 符 。 读 者 只 需要 在 


Python 源 文件 ( * . py) 中 输入 全 部 的 代码 ,随即 交 给 平台 运行 即 可 观察 到 一 样 的 输出 。 


符 , 如 代码 1 所 示 ; 如 果 输 入 的 代码 有 问题 ,如 代码 2 所 示 , 那 么 Python 解释 器 会 
反馈 一 段 错误 的 说 明 ,并 依然 给 出 提示 符 二 二 二 。 


[ kaz -aenenmre 
i >>> iMGæk 
‘Traceback (most recent call last): 
File "<pyshell# >", line 1, in «module» 
ismiceek 
NameError: name 'isMiGeek' is not defined 


>>> | 


* 代码 缩 进 : 读者 如 果 按照 代码 1 输入 到 第 3 行 按 回 车 键 ,会 发 现 既 没有 常规 的 输 
出 ,也 没有 系统 错误 的 提示 ,更 没有 下 一 个 代码 提示 符 出 现 ;而 是 解释 器 在 下 一 行 
向 右 缩 进 (键盘 上 对 应 制 表 符 Tab) 了 一 级 。 这 是 Python 比 CC++ 和 Java 这 些 
语言 在 代码 模块 设计 上 的 一 个 简化 。 许 多 在 CLC ++ I Java 语言 中 需要 用 (} 来 分 
割 的 模块 ,在 Python 中 都 严格 采用 缩 进 机 制 进行 区 分 。 常 见 需要 缩 进 的 场景 包 
括 分 支 循环、 函数 定义 等 ,我 们 会 在 后 续 的 章节 一 一 介绍 和 举例 。 
注释 : 如 果 读 者 在 命令 行 环境 中 输入 代码 1 中 的 第 2 行 ,会 发 现 Python 解释 器 并 
没有 语法 错误 提示 。 并 不 是 因为 Python 有 识别 中 文 命令 的 能 力 , 而 是 我 们 使 用 
TF 引导 了 一 行 代码 注释 。 而 代码 注释 会 被 解释 器 忽略 ,因此 读者 不 会 看 到 错 
误 提示 。 有 些 读者 似乎 觉得 注释 没有 对 编程 有 实质 性 贡献 .然而 ,恰恰 相反 ,为 代 
码 添加 注释 是 一 种 专业 性 的 良好 习惯 ,使 得 代码 便于 追溯 并 且 提 高 可 读 性 。 本 书 
将 秉承 这 一 良好 的 编码 习惯 ,在 需要 解释 的 地 方 都 会 增加 代码 注释 ,方便 读者 阅 
读 和 理解 。 

瑞士 计算 机 科学 家 、1984 年 图 灵 奖 获得 者 Niklaus E. Wirth 在 他 1976 年 出 版 的 著 
名 书籍 Algorithms + Data Structures = Programs 中 冰 述 了 一 个 非常 经 典 的 观点 5 ， 
程序 是 由 数据 结构 与 算法 组 成 。 因 此 ,我 们 对 后 续 Python 编程 细节 的 讲授 也 遵照 这 个 思 
路 , 先 与 读者 探讨 Python 数据 类 型 ,然后 逐步 深入 介绍 与 算法 有 关 的 运算 符 流程 控制 、 
函数 以 及 编程 库 等 内 容 。 





1.4.2 Python 数据 类 型 


Python 内 署 的 常用 数据 类 型 共有 6 种 : 数字 (Number) ,布尔 值 (Boolean)、 字 符 串 
(String) ,还 有 复杂 一 些 的 元 组 (Tuple) 、 列 表 (List) 以 及 字典 (Dictionary)。 比 起 其 他 高 


级 编程 语言 ,Python 内 署 数据 类 型 的 种 类 相对 简化 了 许多 , 详 述 如 下 。 

。 数字 (Number) : 常用 的 数字 类 型 包括 整 型 数 (Integer) ,长 整 型 数 (Long)、 浮 点 数 
(Float) 以 及 复杂 型 数 (Complex) 。 整 型 数 和 浮 点 数 是 我 们 平时 最 常 使 用 的 两 类 ， 
举例 来 说 : 读者 可 以 先 简单 地 理解 为 常用 的 整数 ,如 10,100, — 100 等 都 是 整 型 
数 ;一 般 用 于 计算 的 小 数 ,如 一 0.1、10. 01 等 都 可 以 使 用 Python 的 浮 点 数 数字 类 
型 进行 存储 了 ?。 长 整 型 与 复杂 数据 类 型 (虚数 ) 不 太 常用 ,因此 不 过 多 介绍 。 

HR Boolean): 计算 机 的 计算 基础 是 二 进 制 ,因此 任何 一 门 编程 语言 都 会 有 这 
个 数据 类 型 ,用 来 表示 真 / 假 。 在 Python 中 ,这 两 个 值 有 固定 的 表示 : True 代表 
真 ,False 代表 假 。 切 记 ,Python 是 大 小 写 敏 感 的 编程 语言 ,因此 只 有 按照 这 样 输 
入 才 会 被 解释 器 理解 为 布尔 值 。 

字符 串 (String): 字符 串 是 由 一 系列 字符 (Character) 组 成 的 数据 类 型 ,应 用 范围 
十 分 广泛 ,特别 是 针对 文本 数据 的 处 理 。 在 Python 里 ,字符 串 的 表示 可 以 使 用 成 
对 的 英文 单 引号 或 者 双 引 号 辅助 进行 表示 :“abe’ 或 者 *123”"。 尽 管 123 看 似 是 一 
个 整 型 数 ,但 是 一 旦 被 成 对 的 单 引号 或 者 双 引 号 限制 起 来 , 便 成 了 字符 串 类 型 的 
数据 。 

上 述 三 类 都 是 Python 基本 的 内 惫 数据 类 型 。 它 们 是 数据 表达 、 存 储 的 基础 。 下 面 即 
将 介绍 的 三 种 数据 结构 相对 复杂 ,而 且 需 要 上 述 三 种 基础 数据 类 型 的 配合 。 

。 元 组 (Tuple) : 元 组 是 一 系列 Python 数据 类 型 按照 顺序 组 成 的 序列 。 使 用 一 组 
小 括号 O 表征 ,如 (1，abc', 0.4) 是 一 个 包含 有 三 个 元 素 的 元 组 。 而 且 读 者 会 
发 现 , 元 组 中 的 数据 类 型 不 必 统 一 ,这 个 是 Python 的 一 大 特点 。 另 外 ,假设 上 例 
的 这 个 元 组 叫做 t, 那 么 t[0] 的 值 为 1,t[1j 的 值 为 4bc'。 也 就 是 说 ,我 们 可 以 通过 
索引 直接 从 元 组 中 找到 我 们 需要 的 数据 。 特 别 需 要 提醒 的 是 ,大 多 数 编程 语言 都 
默认 索引 的 起 始 值 为 0, 不 是 1。 
列表 (List) : 列表 和 元 组 在 功能 上 几乎 是 类 似 的 ,只 是 表示 方法 略 有 不 同 。 列 表 
实用 一 对 中 括号 [] 来 组 织 数据 ,如 [1. 'abe', 0. 4]。 需 要 记 住 一 点 例外 的 是 : 
Python 允许 在 使 用 者 在 访问 列表 的 同时 修改 列表 里 的 数据 ,而 元 组 则 不 然 。 具 
体 实 例会 在 后 面 “1. 4. 3 Python 数据 运算 ” 节 中 展示 , 详 见 代码 5。 
=F HR (Dictionary); 这 是 Python 里 面 非常 实用 而 且 功 能 强大 的 数据 结构 ,特别 在 
数据 处 理 任务 里 面 ,字典 几乎 成 了 数据 存储 的 主流 形式 。 从 字典 自身 的 数据 结构 
而 言 , 它 包括 多 组 键 (key) : 值 (value) 对 ,Python 实用 大 括号 来 容纳 这 些 键 值 对 ， 


D ”拓展 小 贴 士 9: 很 多 详细 介绍 Python 编程 的 专业 书籍 会 从 计算 机 存储 原理 的 角度 深入 介绍 各 个 类 型 可 以 表达 的 数据 范围 。 这 里 
不 过 多 涉猎 , 感 兴趣 的 读者 请 自行 阅读 其 他 材料 


T (1:71, 'abc':0. 1, 0. 4:80}。 需 要 读者 注意 的 是 ,字典 中 的 键 是 唯一 的 ,但 是 没 
有 数据 类 型 的 要 求 。 而 查找 某 个 键 对 应 的 值 也 和 元 组 或 者 列表 的 访问 方式 类 似 。 
比如 ,假设 上 例 的 字典 为 变量 d, 那 么 dL1] 的 值 为 1;d[abc] 的 值 为 0. 1 。 


1.4.3 Python 数据 运算 


既然 在 上 一 节 我 们 刚刚 介绍 了 Python 的 数据 类 型 , 接 下 来 ,我 们 开始 了 解 如 何 对 这 

些 数据 进行 运算 。 常 用 的 数据 运算 类 型 有 如 下 几 种 。 
* 算术 运算 (Arithmetic Operators) : 毫 无 疑问 ,这 是 作为 一 门 编程 语言 必须 具备 的 
基础 运算 功能 。Python 常用 的 算术 运算 符 有 : 加 法 (十 ) ,减法 (一 ) 、 乘 法 (x )、 除 
法 (/)、 取 模 (%%) 以 及 寡 指 数 (* * ) 运 算 。 下 面 的 代码 3 展示 了 对 应 的 使 用 样 例 。 


[tem 3. 算术 运算 代码 举例 


>>># 整 数 加 法 。 
>>>10+ 20 


30 


>>># 整 数 与 浮 点 数 的 减法 。 
>>>30 -60.6 
-30.6 


>>># 整 数 与 浮 点 数 的 乘法 。 
>>>4 * 8.9 
35.6 


>>># 整 数 与 整数 的 除法 ,这 里 会 发 现 结果 只 是 保留 了 取 整 后 的 商 数 。 
2225/4 
1 


>>># 整 数 与 浮 点数 的 除法 ,结果 变 为 浮 点 数 。 
>>>5.0 / 4 
1.25 


>>># 整 数 取 模 运 算 。 
2252584 


>>># 短 指数 运算 。 
»20**3 
8.0 


>>> | 


* 比较 运算 (Comparison Operators): 如 果 说 ,算术 运算 的 返回 值 一 般 是 数字 类 型 
的 话 ;那么 ,比较 运算 则 反馈 布尔 值 类 型 的 结果 , 详 见 代 码 4。 


[fms 比较 运算 代码 举例 


>> MEK HE BE 
>>>10<20 

True 

>>>10>20 
False 


>>>+ 整 数 与 浮 点 数 的 比较 。 
>>>30 <=30.0 

True 

>>>30.0 >=30.0 

True 


>>># 判 断 两 个 值 是 否 相等 。 
>>>30==40 
False 


>>># 两 个 值 不 相等 的 判定 。 
>>>30 1-40 


Tre 


>>> | 


* 赋值 运算 (Assignment Operators): 上 述 两 类 运算 的 示例 都 有 一 个 共同 的 特点 ， 
即 所 有 的 运算 结果 都 只 是 作为 一 次 性 的 输出 使 用 。 然 而 ,更 多 情况 下 ,我 们 需要 
对 数据 运算 的 中 间 结 果 进 行 存 储 , 以 备 后 续 使 用 。 因 此 ,需要 将 一 些 数 据 赋值 给 
自 定义 的 变量 。 与 许多 流行 的 高 级 编程 语言 C.C++、Java 等 不 同 ,Python 在 声明 
变量 时 不 需要 预告 知 类 型 ,如 代码 5 所 示 。 





[ «59 5. 峰值 运算 代码 样 例 


>>># 将 一 个 元 组 赋值 给 变量 t。 
>>>t= (l, 'abc', 0.4) 


>>># 试 图 更 改元 组 t 的 第 一 个 元 素 ,但 是 解释 器 报错 ,具体 原因 我 们 已 经 讲 过 ,元 组 一 旦 初始 化 
不 可 以 改变 内 部 元 素 。 
>>>t[0]=2 


------'"IypeError Traceback (most recent call last) < ipythen- input- 16- 
29b330004f70» in < module» () -- -- > 1t[0]= 2 TypeError: 'tuple' cbject does not support item 
assignment: 


>>>+ 将 一 个 列表 赋值 给 变量 1。 
>>>1=[1, 'abc', 0.4] 


>>># 试 图 更 改 列表 1 的 第 一 个 元 素 。 
>>>1[0]=2 


>>># 试 图 对 更 新 过 的 列表 1 的 第 一 个 元 素 2, 进 行 递增 1 并 重新 赋值 的 操作 。 
>>>1[0] + =1 

>>># 观 察 输 出 ,应 该 为 3。 

>>>1[0] 

3 


>>># 试 图 对 更 新 过 的 列表 1 的 第 一 个 元 素 2, 进 行 递减 2, 并 且 重 新 赋值 给 1[0]。 


>>>1[0] -=2 
>>># 观 察 输出 ,应 该 为 L 
>>>1[0] 


1 
>>> | 
* 逻辑 运算 (Logical Operators): 这 种 类 型 的 运算 比较 简单 ,共有 三 种 : 53 Cand) ,或 


Cor) , 非 (not)。 如 代码 6 所 示 , 人 迎 辑 运算 所 涉及 的 数据 类 型 为 布尔 值 , 返 回 值 也 
是 布尔 值 , 所 以 仅仅 存在 有 限 的 几 种 可 能 性 。 


第 1 章 简介 篇 : 5 


Ros 逻辑 运算 代码 样 例 


>>># 与 (am 运算 只 有 二 者 都 是 True 返 回 值 才 是 True. 
>>> True ani True 


>>> True and False 


>>># 或 (oD 运算 只 要 有 其 中 一 方 为 True, 运 算 结果 就 是 Toe, 
>>> True or False 


>>> False or False 


>>># 非 (ncb) 运 算 直 接 反 转 布尔 值 。 
>>>not True 


False 


>>> | 


* At Riz SE Membership Operators): 这 是 针对 Python 里 面 较为 复杂 的 数据 结构 
而 设立 的 一 种 运算 ,主要 面向 元 组 ,列表 和 字典 。 通 过 运算 符 in 询问 是 否 有 某 个 
元 素 在 元 组 或 者 列表 里 出 现 ,或 者 检视 某 个 键 (key) 是 否 在 字典 里 存在 。 这 是 
Python 里 面 非 常 实用 而 且 功能 强大 的 运算 ,特别 在 数据 处 理 任务 里 面 。 代 码 7 
将 会 延续 使 用 之 前 的 数据 样 例 进行 说 明 。 


| 代码 7: 成 员 运 算 代 码 样 例 


>>># 将 一 个 列表 赋值 给 变量 1, 一 个 元 组 赋值 给 变量 t, 一 个 字典 赋值 给 变量 aL 
>>>1= [L, 'abc', 0.4] 

>>>te (L,'abe', 0.4) 

»»»d- (1: "1, 'abc': 0.1, 0.4:80} 


>>># 试 图 询问 1 列表 中 是 否 有 0.4, 


>>>0.4 inl 


True 


>>># 试 图 询问 七 元 组 中 是 否 有 L 
>>>lint 


Toe 


>>># 试 图 询问 字典 d 中 是 否 有 键 'abc'。 
>>>'abc' ind 
True 


>>># 计 只 能 用 来 考量 是 否 有 键 (key) ,不 能 告诉 您 是 否 有 值 (value) 。 : 
>>>0.1ind 
False J 


1.4.4 Python 流程 控制 


前 面 几 个 小 节 的 代码 示例 都 是 按照 正常 键入 的 顺序 依次 执行 的 ,这 是 最 为 常见 的 
Python 程序 执行 流程 。 然 而 ,有 一 些 情况 下 ,我 们 需要 选择 执行 或 者 重复 执行 某 个 代码 
片段 。 这 样 就 需要 通过 一 些 特殊 的 流程 控制 ,使 得 解释 器 可 以 跳跃 甚至 回溯 代码 ,比较 常 
见 的 包括 分 支 语句 (if) 和 循环 控制 (for) 。 

。 分 支 语句 (if) : 很 多 情况 下 ,需要 程序 根据 不 同 的 情况 对 代码 作出 选择 性 执行 ,这 
就 需要 分 支 语句 的 参与 。 与 分 支 语 句 紧密 相连 的 数据 类 型 和 操作 类 型 分 别 是 布 
尔 值 与 多 辑 运算 ,常见 几 种 语法 结构 如 下 。 

迁 布尔 值 /表达 式 : 

【 制 表 符 ] 执 行 分 支 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 

REFN 

else: 

【 制 表 符 ] 执 行 分 支 X 可 以 有 多 行 , 都 需要 制 表 符 缩 进 ) 

【 制 表 符 ]… 

或 者 
it Hi MAH IKK: 
【 制 表 符 ] 执 行 分 支 KK 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 
【 制 表 符 ]… 
elif 布 尔 值 /表达 式 : 
【 制 表 符 ] 执 行 分 支 X 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 
【 制 表 符 ]… 





【 制 表 符 执行 分 支 X 可 以 有 多 行 , 都 需要 制 表 符 缩 进 ) 
【 制 表 符 】… 


解释 器 会 依次 询问 让 与 elif 后 面 的 布尔 值 或 者 反馈 布尔 值 的 表达 式 ,一旦 其 中 任何 
-个 为 真 , 便 会 执行 对 应 的 多 行 分 支 语句 ;如 果 其 中 没有 任何 一 个 为 真 , 则 执行 else 对 应 
的 语句 , 详 见 代码 8。 


[ 代码 8: 分 支 语句 代码 样 例 


>>># 首 先 将 True 的 布尔 值 赋予 变量 b. 
>>>br True 


>>># 然 后 使 用 分 支 语句 if else 组 合 。 
>>>ifb: 

>>> print "It's True!" 

>>> else: 

>>> print "It's False!" 

>>> 


It's True! 


>>># 接 着 使 用 分 支 语句 if elif else 组 合 ,将 False 的 布尔 值 赋予 变量 b, True 赋予 变量 c. 
>>>b=False 

>>> Tne 

>>>ifb: 

>>> print "b is True!" 

>>>elif c: 

>>> print "c is True!" 

>>> else: 

>>> print "Both are False!" 


>>> 


cis True! 


>>># 将 False 的 布尔 值 赋予 变量 b, False 赋 予 变量 c, EAA MRAR, 
>>>br False 

>>> c False 

>>>ifb: 

>>> print "b is True!" 


»»»elif c: 

>>> print "cis Tme!" 
»»»else: 

>>> print "Both are False!" 
>>> 


Both are False! _| 
循环 控制 (for) : 还 有 一 些 情 况 , 需 要 循环 使 用 某 些 代码 。 这 是 计算 机 程序 为 人 类 
提供 的 极 大 便利 。 同 时 ,之 前 介绍 的 成 员 运算 符 (in) 也 会 参与 到 循环 控制 的 语法 
结构 中 ,因为 我 们 经 常会 借助 遍历 来 完成 对 循环 语句 的 控制 。 常 见 的 一 种 遍历 语 
法 如 下 : 

for 临 时 变量 in 可 遍历 数据 结构 (列表 、 元 组 .字典 ) : 

【 制 表 符 ] 执 行 语句 (可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 

【 制 表 符 ]… 

在 执行 循环 语句 时 ,临时 变量 会 逐个 获得 可 遍历 数据 结构 中 的 值 ;每 获取 到 其 中 一 个 
值 之 后 , 制 表 符 缩 进 的 所 有 语句 会 执行 一 次 。 更 加 具体 的 代码 样 例 请 见 代码 9。 


| 代码 9; 循环 语句 代码 样 例 
>>># 对 字典 d 的 键 进行 循环 遍历 ,输出 每 组 键 值 对 。 
»»»d- (1: '1', 'abc': 0.1, 0.4:80} 
>>> for k ind: 
>>> print k, ":", d[k] 


abc: 0.1 i 
0.4 : 80 | 
1.4.5 Python 函数 (模块 ) 设 计 


在 面 对 大 型 项 目的 时 候 , 随 着 堆砌 的 代码 越 来 越 多 ,编程 人 员 发 现 有 很 多 功能 重复 的 
模块 被 反复 地 键入 和 执行 。 因 此 ,大 家 开始 考虑 是 否 可 以 将 这 些 功 能 具体 且 被 经 常 使 用 
的 代码 段 , 从 程序 中 抽 离 出 来 并 单独 封装 。 于 是 ,函数 (Function)/ 模 块 (Module) 的 概念 
出 现在 了 编程 语言 里 。 在 对 函数 /模块 的 设计 方面 ,我 们 可 以 向 函数 提供 必要 的 参数 输 
入 ,同时 可 以 从 函数 /模块 获取 所 需 的 返回 值 (return)。Python 采用 def 这 个 关键 词 来 定 





义 一 个 函数 /模块 ,如 代码 10 所 示 。 


代码 10: 函数 定义 和 调用 代码 样 例 


>>># 定 义 一 个 名 叫 fco 的 函数 ,传人 参数 x 

>>> def foo (x) : 

>>># 为 x 执行 平方 运算 ,返回 所 得 的 值 ,同时 注意 函数 体内 部 所 有 代码 一 律 缩 进 。 
>>>retum x * * 2 


>>># 调 用 函数 foo, 传 人 参数 值 为 8.0, 观 察 输出 ,结果 为 64.0, 
>>> foo(8.0) 


z " 


有 了 函数 /模块 的 帮助 ,我 们 便 可 以 更 好 地 组 织 和 规划 更 大 型 的 项 目 , 同 时 也 节省 了 
代码 的 人 工 费 用 。 


1.4.6 Python 编程 库 ( 包 ) 的 导入 


当 读 者 已 经 学 会 如 何 通 过 封装 和 调用 自己 编写 的 函数 来 完成 较为 复杂 的 任务 的 时 
候 , 心 中 一 定 充满 了 成 就 感 。 特 别 是 ,如 果 对 于 自己 所 编写 的 某 些 函 数 模块 的 功能 和 效率 
都 信心 十 足 ,一 定 非 常 希望 可 以 和 其 他 人 分 享 ,并 且 也 乐意 别人 的 程序 重用 这 些 函 数 模 
块 。 这 样 一 来 就 激励 着 大 家 互通 有 无 ,第 三 方程 序 库 (Library) 或 者 包 (Package) 的 概念 
就 应 运 而 生 。 有 一 些 编程 库 默认 配置 在 Python 最 基本 的 解释 器 环境 中 ,这 些 是 我 们 经 常 
要 用 到 的 ;也 有 一 些 是 其 他 编程 爱好 者 所 开发 ,发 布 在 PyPICPython Package Index) OF 
台 上 ,这些 需要 我 们 自主 安装 ( 见 “1. 3 Python 环境 配置 ” 节 )。 

事实 上 , 越 是 复杂 的 大 型 项 目 越 不 可 能 从 零 开始 编程 ,更 不 可 能 要 求 一 位 程序 员 擅长 
自行 编写 所 有 功能 的 代码 。 实 际 使 用 中 ,哪怕 是 执行 一 些 相对 简单 的 数学 运算 ,我 们 甚至 
都 能 在 Python 语言 的 内 置 程序 库 中 找到 可 以 导入 (import) 并 且 使 用 的 包 。 下 而 笔者 在 
代码 11 中 列 出 了 几 种 导入 包 的 方法 。 


[ 代码 11: 程序 库 / 工 具 包 导入 代码 示例 


>>># 直 接 使 用 ipot FA math 工 具 包 。 
>>> import math 
>>># 调 用 math 包 下 的 函数 ep 求 自然 指数 。 
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>>>math.exp (2) 
7.38905609893065 
>>> 


>>> #)A (fran) math 工 具 包 里 指定 导入 exp BK. 
>>> fram math import exp 
>>># 直 接 使 用 函数 名 称 调用 esp, 不 需要 声明 math 包 。 


»epQ) 
7.38905609893065 


>>> 


>>># 从 (frm math 工 具 包 里 指定 导入 ep 函数 ,并 且 对 exp 重 新 命名 为 ep. 
>>> from math import exp as ep 
>>># 使 用 函数 ep 的 临时 替代 名 称 调用 。 
»epQ) 
7.38905609893065 
>>> 


1.4.7 Python 基础 综合 实践 


这 里 ,我 们 提供 完整 的 “ 良 / 恶 性 乳腺 癌 肿 瘤 预测 ”问题 的 Python 源 代码 。 也 许 读者 
仍然 对 其 中 的 许多 具体 细节 不 够 了 解 ,这 份 代码 只 是 为 了 帮助 大 家 理 清 一 些 全 书 最 为 基 
本 的 Python 编程 要 素 ,方便 各 位 对 后 续 实例 的 理解 和 实践 。 同 时 ,作者 会 在 有 必要 提供 
说 明 的 地 方 进 行 注释 ,请 见 代码 12 。 


[ «9 12:“ 良 /恶性 乳腺 癌 肿 瘤 预 测 "完整 代码 样 例 


>>># 导 入 pandas 工 具 包 ,并 且 更 名 为 pd 
>>> import pandas as pd 





= 


>>> 4 调用 pandas 工具 包 的 read csv PRÉC ARI s f A VI AC PF Hh hE SI, BEA E f CHER AF : 


至 变量 df train, 
>>> df train- pd.read csv(' . ./Datasets/Breast- Cancer/nreast- cancer train.csv’) 


>>># 调 用 pandas 工 具 包 的 read cov 函数 /模块 ,传人 测试 文件 地 址 参数 ,获得 返回 的 数据 并 且 存 : 


至 变量 df test. 
>>> df test-pd.read csv('../Datasets/Breast- Cancer/breast- cancer- test.csv') 
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>>># 选 取 'Clunp Thickness'j 'Cell size" 作 为 特征 ,构建 测试 集中 的 正 负 分 类 样本 。 
>>> df test negative-df test.loc[df test["Type'] ==01[["Clump Thickness", 

‘ell Size']] 

»»»df test positive-df test.loc[df test['Iype'] ==1] [['Clump Thickess', 

"ell size] 


>>># 导 人 matplotlib 工 具 包 中 的 pyplot 并 简化 命名 为 pit. 
>>> import matplotlib.pyplot as plt 


>>># 绘 制图 ]- 2 中 的 良性 肿瘤 样本 点 ,标记 为 红色 的 o。 

»»»plt.scatter(df test_negative['Clump Thickness'],df test negative['Oell Size'], marker- 'o', = 
200, c= 'red') 

>>># 绘 制图 1- 2 中 的 恶性 肿瘤 样本 点 ,标记 为 黑色 的 x. 

»»»plt.scatter(df test positive['Clump Thickness'],df test positive['Cell size'], marker= 'x', s= 
150, c= black!) 


>>># 绘 制 wy 轴 的 说 明 。 
>>>plt.xlabel ('Clunp Thickness") 
>>> plt.ylabel ('Cell Size!) 

>>> # 显示 图 1-2, 

>>> plt.show() 


>>> eA mmpy 工 具 包 , 并 且 重 命名 为 mp. 

>>> import numpy as np 

>>> 478] FA nmpy 中 的 random e Jt BÉ DLA AE EA REA RR C 
>>> intercept- np. randam. random ([1]) 

>>> coef np. random. random ([2] ) 

>>> 1x-rp.arange (0, 12) 

>>> ly= (intercept -1x * coef[0]) / wef [1] 

>>># 绘 制 一 条 随机 直线 。 

>>>plt.plot (lx, ly, c- 'yellow') 


>>># 绘 制图 1-3. 

>>>plt.scatter (df test negative['Clump Thickness'],df test negative['OCell Size'], marker- 'o', s= 
200, œŒ 'red') 

>>> plt.scatter(df test positive['Clump Thickness'],df test positive['Oell Size'], marker- 'x', s= 
150, c- 'black') 
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>>> plt.xlabel ('Clurp Thickness") 
>>>plt.ylabel (Cell size") 
>>> plt.show() 


>>># 导 和 人 skleam 中 的 逻辑 斯 蒂 回归 分 类 器 。 
>>> fram sklearn.linear model import LogisticRegression 
>>> l= logisticRegressicn() 


>>># 使 用 前 10 条 训练 样本 学 习 直 线 的 系数 和 截 距 。 

>>> 1r.fit (GF train[['Clump Thickness', 'Cell Size']][:10], df train["Type'] 

[:10]) 

»»»print "Testing accuracy (10 training semples):', lr.score(df test[['Clump Thickness', ‘Gell Size 
*]1, df_test ["Type']) 

Testing accuracy (10 training samples): 0.868571428571 


>>> interoept= lr. intercept_ 
>>> coef Ir.coef_[0, :] 


>>># 原 本 这 个 分 类 面 应 该 是 1x * coef[0] + ly * coef[1] + intercept= 0, 映 射 到 2 维 平面 上 之 
后 ,应 该 是 : i 
>>> ly = ( intercept -lx * coef [0]) / wef [1] 


>>> BEES 1-4, 

>>> plt.plot (Lx, ly, c 'green') 

»»»pit.scatter(df test negative['Clump Thickness'],df test negative['Oell Size'], marker= 'o', s- 
200, c- 'red') 

»»»plt.scatter(df test positive['Clurp Thickness'],df test positive['Oell Size'], marker- 'x', s= 
150, c- 'black') 

>>>plt.xlabel ('Clump Thickness!) 

>>> plt.ylabel ('Cell Size") 

>>> plt.show() 


>>> l= IogisticRegression() 

>>># 使 用 所 有 训练 样本 学 习 直 线 的 系数 和 截 距 。 

>>> Ir. fit (GF train[['Clump Thiclmess'，'Call Size']], d£ train['Type']) 

»»» print "Testing accuracy (all training samples) :', lr.score(df test[['Clump Thickness", 'Oell Size | 
"1, d£_test ["Type"]) 


Testing accuracy (all training samples): 0.937142857143 


>>> intercept= lr.intercept - 
>>> coef= lr.coef [0, :] 
>>> ly = (- intercept - lx * coef[0]) / coef[1] 


>>># 绘 制图 1- 5。 

>>>plt.plot (1x, ly, c- 'blue') 

»»»plt.scatter(df test negative['Clump Thickness'],df test negative['Oell Size'], marker- 'o', s- 
200, œŒ 'red') 

>>> plt. scatter (df_test_positive['Clump Thickness'],df test positive['Oell Size'], marker- 'x', s= 
150, c- 'black') 

>>> plt.xlabel ('Clump Thickness") 

>>> plt.ylabel ("Cell Size") 


>>>plt.show() | 


n2 15 章 末 小 结 


作为 全 书 的 起 始 章节 ,作者 希望 向 各 位 读者 提供 足够 的 理论 和 实践 知识 。 

从 理论 角度 上 讲 ,我们 在 “1. 1 机 器 学 习 综述 ” 节 与 “1. 2 Python 编程 库 ” 节 中 向 大 家 
交代 了 : 

CD 什么 是 机 器 学 习 ; 

(2) 机 器 学 习 的 三 要 素 ， 

(3) 为 什么 使 用 Python 来 实践 机 器 学 习 ; 

(4) 本 书 预期 使 用 哪些 Python 的 编程 库 进 行 机 器 学 习 的 快速 实践 。 

从 实践 角度 上 讲 ,“1. 3 Python 环境 配置 " 节 与 “1. 4 Python 编程 基础 " 节 为 大 家 


CD. 针对 不 同 操作 系统 平台 ,提供 了 非常 详细 的 编程 环境 配置 步骤 ; 

(2) 足以 理解 和 实践 本 书 代 码 的 Python 编程 基础 ; 

(3) 一 份 完整 的 用 于 机 器 学 习 综合 实践 的 代码 样 例 。 

期 待 大 家 学 习 愉快 ,本 章 所 有 数据 与 代码 示例 都 可 以 通过 如 下 链接 下 载 。 
http://pan. baidu. com/s/1dENAUTr 

http://pan. baidu. com/s/1geN6QbD 


基 mh o 篇 


在 本 章 ,我 们 将 使 用 大 量 实例 和 数据 ,着 重 介绍 两 类 最 为 广泛 使 用 的 机 器 学 习 模型 
(监督 学 习 经 典 模型 与 无 监督 学 习 经 典 模型 ) 的 使 用 方法 、 性 能 评价 指标 以 及 优 缺 点 。 

对 于 每 一 类 经 典 模型 ,都 将 从 模型 简介 数据 描述 、 编 程 实践 ,性 能 测评 以 及 特点 分 析 
5 个 角度 分 别 进行 盖 述 。 


n 21 监督 学 习 经 典 模型 


我 们 曾 在 第 1 章 中 提 到 过 :“ 机 器 学 习 中 监督 学 习 模型 的 任务 重点 在 于 ,根据 已 有 经 
验 知识 对 未 知 样本 的 目标 /标记 进行 预测 。 根 据 目标 预测 变量 的 类 型 不 同 ,我 们 把 监督 学 
习 任务 大 体 分 为 分 类 学 习 与 回归 预测 两 类 。” 

尽管 如 此 ,我 们 仍然 可 以 对 它们 的 共同 点 进行 归纳 ,整理 出 如 图 2-1 所 示 的 监督 学 习 
任务 的 基本 架构 和 流程 : 首先 准备 训练 数据 ,可 以 是 文本 、 图 像 .音频 等 ;然后 抽取 所 需要 
的 特征 ,形成 特征 向 量 (Feature Vectors) ;接着 ,把 这 些 特征 向 量 连同 对 应 的 标记 /目标 
(Labels) 一 并 送 入 学 习 算法 (Machine Learning Algorithm) 中 ,训练 出 一 个 预测 模型 
(Predictive Model) ;然后 ,采用 同样 的 特征 抽取 方法 作用 于 新 测试 数据 ,得 到 用 于 测试 的 
特征 向 量 ; 最 后 ,使 用 预测 模型 对 这 些 待 测试 的 特征 向 量 进行 预测 并 得 到 结果 (Expected 
Label) , 

在 “2. 1.1 分 类 学 习 ” 节 中 ,为 了 展现 其 广泛 的 应 用 环境 ,对 于 每 一 种 分 类 学 习 模 型 ， 
我 们 都 会 使 用 不 同 的 任务 以 及 数据 样 例 进行 说 明 。 在 逐渐 掌握 这 些 基 本 分 类 模型 的 使 用 
方法 之 后 ,会 在 “2.1.2 回归 预测 ” 节 中 集中 解决 一 个 相同 的 问题 并 使 用 一 套 相 同 的 数据 
样 例 ,比较 不 同 回归 模型 的 性 能 差异 ;同时 也 可 以 让 读者 体验 到 不 断 尝 试 不 同 模型 ,进而 
改进 学 习性 能 的 乐趣 。 





Supervised Learning Model 











图 2-1 监督 学 习 基本 架构 和 流程 ( 见 彩 图 ) 了 


2.1.1 分 类 学 习 


分 类 学 习 是 最 为 常见 的 监督 学 习 问 题 ,并 且 其 中 的 经 典 模型 也 最 为 广泛 地 被 应 用 。 
其 中 ,最 基础 的 便 是 二 分 类 (Binary Classification) 问 题 , 即 判断 是 非 , 从 两 个 类 别 中 选择 
一 个 作为 预测 结果 ; 除 此 之 外 还 有 多 类 分 类 (Mnulticlass Classification) 的 问题 , 即 在 多 于 
两 个 类 别 中 选择 一 个 ;甚至 还 有 多 标签 分 类 (Multi-label Classification) 问 题 ,与 上 述 二 分 
类 以 及 多 类 分 类 问题 不 同 , 多 标签 分 类 问题 判断 一 个 样本 是 否 同时 属于 多 个 不 同类 别 。 

在 实际 生活 和 工作 中 ,我 们 会 遇 到 许 许 多 多 的 分 类 问题 .比如 ,医生 对 肿瘤 性 质 的 判 
定 ; 邮 政 系统 对 手写 体 邮编 数字 进行 识别 ;互联 网 资讯 公司 对 新 闻 进 行 分 类 ;生物 学 家 对 
物种 类 型 的 鉴定 ;甚至 ,我 们 还 能 够 对 某 些 大 灾难 的 经 历 者 是 否 生 还 进行 预测 等 。 


2.1.1.1 线性 分 类 器 


。 模型 介绍 : 线性 分 类 器 (Linear Classifiers) ,顾名思义 ,是 一 种 假设 特征 与 分 类 结 
果 存 在 线性 关系 的 模型 。 这 个 模型 通过 累加 计算 每 个 维度 的 特征 与 各 自 权重 的 
乘积 来 帮助 类 别 决策 。 


O 图 片 来 自 于 http://www. astroml. org 
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如 果 我 们 定义 x =< r srst, D 来 代表 维特 征 列 向 量 ?, 同 时 用 维 列 向 量 w 
=< ro uw; n ,tw > 来 代表 对 应 的 权重 ,或 者 叫做 系数 (Coefficient) ;同时 为 了 避免 其 
过 坐标 原点 这 种 硬性 假设 ,增加 一 个 截 距 (Intercept) b. 由 此 这 种 线性 关系 便 可 以 表达 为 

f(w-x.b)-— w'xdb a) 
这 里 的 f ER, 取 值 范围 分 布 在 整个 实数 域 中 。 

然而 ,我 们 所 要 处 理 的 最 简单 的 二 分 类 问题 希望 E {0,1); 因此 需要 一 个 函数 把 原 

先 的 f ER 映射 到 (0,1)。 于 是 我 们 想到 了 逻辑 斯 蒂 (Logistic) AR: 











d 
g(z)= TFe= (2) 
这 里 的 = ER IFA g € Co. D ,并且 其 函数 图 像 如 图 2-2 所 示 。 

逻辑 斯 蒂 函 数 

1.0 

0.8 

0.6 

E 

04 

02 

0.0 " " 

-10 $ 0 5 10 


图 2-2 还 辑 斯 蒂 函 数 图 像 


综 上 ,如 果 将 = 替换 为 三 , 整合 方程 式 (1) 和 方程 式 (2) ,就 获得 了 一 个 经 典 的 线性 分 
类 器 ,逻辑 斯 蒂 回 归 模型 2(Logistic Regression) : 
i - 1 
1 十 e7 ype 
从 图 2-2 中 便 可 以 观察 到 该 模型 如 何 处 理 一 个 待 分 类 的 特征 向 量 : 如 果 = = 0, 那么 


hes (X)= g(f(w:x:b))= (3) 


O 拓展 小 贴 士 10: 一 般 情 况 下 ,许多 机 器 学 习 或 者 线性 代数 的 相关 书籍 都 把 这 些 默认 为 列 向 量 。 
© ”拓展 小 贴 士 11: 这 里 需要 说 明 一 下 ,虽然 它 叫做 “回归 "模型 ,但 是 事实 上 这 只 是 一 种 约定 俗 成 的 称谓 ,事实 上 它 仍然 是 一 种 经 典 
的 分 类 模型 。 


第 2 章 、 基 础 篇 37: 


g — 0.5, Hz «0 WI g — 0.5, 这 个 特征 向 量 被 判别 为 一 类 ;反之 , 若 = 二 0, 则 g 二 0.5， 
其 被 归 为 另外 一 类 。 
当 使 用 一 组 痉 个 用 于 训练 的 特征 向 量 X <a ax rx" D> ALT RT II SPE Eb 


YH yay! enun 二 ,我 们 希望 逻辑 斯 蒂 模 型 可 以 在 这 组 训练 集 上 取得 最 大 似 然 估计 
(Maximum Likelihood) fI] f 3€ L(w,b)。 或 者 说 ,至 少 要 在 训练 集 上 表现 如 此 ?: 


argmax L (wb)= argmax [T (hws G)” (1 — hwa G7 (4) 
wel i i=l 


为 了 学 习 到 决定 模型 的 参数 (Parameters), 即 系数 w MIRE b., 我 们 普遍 使 用 一 种 精 

确 计算 的 解析 算法 和 一 种 快速 估计 的 随机 梯度 上 升 (Stochastic Gradient Ascend WO, 

这 里 我 们 不 会 过 多 介绍 这 些 算法 的 细节 ,有 兴趣 的 读者 可 以 自行 查阅 斯 坦 福 大 学 吴 恩 达 

(Andrew Ng) 教 授 的 机 器 学 习 课 件 9。 这 里 只 会 在 编程 实践 一 节 中 向 大 家 介绍 如 何 使 用 
这 两 种 算法 求解 模型 参数 。 

。 数据 描述 : 这 一 节 , 我 们 使 用 之 前 在 第 1 章 中 探讨 过 的 “ 良 /恶性 乳腺 瘤 肿瘤 预测 ” 

数据 为 例子 ,来 实践 这 一 节 所 讲解 的 多 辑 斯 蒂 回 归 分 类 器 。 与 第 1 章 不 同 的 是 ， 

本 次 将 完整 地 使 用 该 数据 所 有 的 特征 作为 训练 分 类 器 参数 的 依据 ,同时 采用 更 为 

精细 的 测评 指标 对 模型 性 能 进行 评价 。 原 始 数据 的 下 载 地 址 为 : https:// 

archive, ics. uci. edu/ml/machine-learning-databases/ breast-cancer-wisconsin/ 。 


根据 其 数据 描述 : 


Nuber of Instances: 699 (as of 15 July 1992) 
Nuber of Attributes: 10 plus the class attribute 
Attribute Information: (class attribute has been moved to last colum) 


+ Attribute Damin 
1. Sample code mmiber id mnber 
2. Clurp Thickness 1-10 
3. Unifommity of Cell Size 1-10 
4. Uniformity of Cell Shape 1-10 
5. Marginal Adhesion 1-10 


外 ”拓展 小 贴 士 12: 当 读者 阅读 到 本 书 的 第 3 章 , 就 会 进一步 明白 为 什么 这 里 这 样 表 述 。 事实 上 ,任何 模型 在 训练 集 上 的 表现 都 不 一 
定 能 够 代表 其 最 终 在 未 知 待 测 数据 集 上 的 性 能 ;但 是 ,至 少 要 先 保证 模型 可 以 被 训练 集 优化 。 

© ”拓展 小 贴 士 13: 事实 上 ,不 管 是 随机 梯度 上 升 (SGA) 还 是 随机 梯度 下 降 (SGD) ,都 隶属 于 用 梯度 法 迭代 渐进 估计 参数 的 过 程 。 梯 
度 上 升 用 于 目标 最 大 化 ,梯度 下 降 用 于 目标 最 小 化 。 在 线性 回归 中 ,我们 会 接触 优化 目标 最 小 化 的 方程 。 

© http://cs229. stanford. edu/notes/cs229-notesl. pdf 
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6. Single Epithelial Cell size 1-10 
7. Bare Nuclei. 1-10 
8. Bland Chromatin 1-10 
9. Normal Nucleoli 1-10 
10. Mitoses 1-10 
11. Class: (2 for benign, 4 for malignant) 


Missing attribute values: 16 
There are 16 instances in Groups 1 to 6 that contain a single missing 
(i.e., unavailable) attribute value, now denoted by "?". 


Class distributicn: 
Benign: 458 (65.5%) 
Malignant: 241 (34.5%) 


我 们 得 知 该 原始 数据 共有 699 条 样本 ,每 条 样本 有 11 列 不 同 的 数值 : 1 列 用 于 检索 的 id， 
9 列 与 肿瘤 相关 的 医学 特征 ,以 及 一 列表 征 肿瘤 类 型 的 数值 。 所 有 9 列 用 于 表示 肿瘤 医 
学 特质 的 数值 均 被 量化 为 1 一 10 之 间 的 数字 ,而 肿瘤 的 类 型 也 借 由 数字 2 和 数字 4 分 别 
指 代 良 性 与 恶性 。 不 过 ,这 份 数 据 也 声明 其 中 包含 16 个 缺失 值 ,并 且 用 *?” 标 出 。 事 实 
上 ,缺失 值 问题 广泛 存在 于 现实 数据 中 ,也 是 机 器 学 习 任务 无 法 回避 的 问题 ;然而 ,考虑 到 
读者 学 习 本 书 的 渐进 性 ,我 们 在 本 章 的 所 有 实践 都 会 将 数据 预 处 理 后 供 各 位 使 用 。 对 于 
存在 缺失 值 的 数据 ,都 暂时 也 以 忽略 ;而 用 于 处 理 缺失 数据 的 方法 会 在 后 续 为 大 家 介绍 。 
下 面 这 段 代码 用 于 预 处 理 原始 肿瘤 数据 : 


Ba 13. 良 /恶性 乳腺 癌 肿 瘤 数据 预 处 理 


>>># 导 入 pandas 与 nmpy 工 具 包 。 
>>> import pandas as pd 
>>> import numpy as np 


>>> # 创建 特征 列表 。 

>>> olum names= ['Sample code nmiber'，'Clump Thickness!, 'Unifommity of Cell Size', 'Unifomity 
Cell Shape, "Marginal Adhesion’, 'Single Epithelial Cell Size', "Bare Nuclei', ‘Bland Chromtin', 
Normal Nucleoli', 'Mitoses', 'Class!] 





>>># 使 用 pandas.read csv 函 数 从 互联 网 读 取 指 定数 据 。 
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>>> data- pd.read csv ('https://archive.ics.uci .edu/ml /rachine- leaming- 
databases/breast- cancer- wisconsin/breast- canoer- wisconsin.data', names- 
colum names) 


>>># 将 ? 蔡 换 为 标准 缺失 值 表 示 。 

>>> data- data.replace (to replace- '? ', value- np.nan) 
>>># 丢 弃 带 有 缺失 值 的 数据 (只 要 有 一 个 维度 有 缺失 ) 。 
>>> data data.dropna (how= 'any') 

>>># 输 出 data 的 数据 量 和 维度 。 

>>> data.shape 


(683, 11) | 


如 代码 13 的 输出 所 示 , 经 过 简单 的 处 理 之 后 ,无 缺失 值 的 数据 样本 共有 683 条 ,特征 
包括 细胞 厚度 、 细 胞 大 小 、 形 状 等 9 个 维度 ,并 且 每 个 维度 的 特征 均 量化 为 1 一 10 之 间 的 
数值 进行 表示 ,如 图 2-3 所 示 。 


Sample code [Clump | Uniformity ot | Uniformity of |Marginal [Single Epithelial |Bare [Bland Normal — | witoses 
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图 2-3 和 良 /恶性 乳腺 癌 肿 瘤 数据 样 例 


由 于 原始 数据 没有 提供 对 应 的 测试 样本 用 于 评估 模型 性 能 ,因此 需要 对 带 有 标记 的 
数据 进行 分 割 。 通 常情 况 下 ,25% 的 数据 会 作为 测试 集 ,其 余 75% 的 数据 用 于 训练 ,如 代 
码 14 所 示 。 


代码 14: 准备 良 /恶性 乳腺 癌 肿 瘤 训练 、 测 试 数据 


>>># 使 用 skleam.cross valiaticn 里 的 train test _ split 模块 用 于 分 割 数据 。 

>>> fran skleam.cross validation import train test split 

>>># 随 机 采样 25s 的 数据 用 于 测试 , 剩 下 的 75% 用 于 构建 训练 集合 。 

>>>X train, X test, y train, y test-train test split(data[colum names[1:10]], data[colum names 
[10]], test size-0.25, randm state- 33) i 


>>># 查 验 训练 样本 的 数量 和 类 别 分 布 。 
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>>>Y train.value counts() 
2 34 

4 168 

Name: Class, dtype: int64 


>>># 查 验 测试 样本 的 数量 和 类 别 分 布 。 
>>>y test.value counts() 

2 10 

4 n 


Name: Class, dtype: int64 | 


综 上 ,我 们 用 于 训练 样本 共有 512 AR C344 条 良性 肿瘤 数据 .168 条 恶性 肿瘤 数据 ) , 测 
试 样本 有 171 条 (100 条 良性 肿瘤 数据 71 条 恶性 肿瘤 数据 ) 。 
。 编程 实践 : 接 下 来 ,我 们 在 代码 15 中 使 用 好 辑 斯 蒂 回 归 与 随机 梯度 参数 估计 两 种 
方法 对 上 述 处 理 后 的 训练 数据 进行 学 习 , 并 且 根 据 测试 样本 特征 进行 预测 。 


ELIT LLL 


>>># 从 sklearn.preprocessing Hi $A Standardscaler, 

>>> fran sklearn.preprooessing import standardscaler 

>>># 从 skleam.linear model Hi A LogisticRegression 与 Sarclassifier, 
>>> from sklearn.linear model import LogisticRegression 

>>> from sklearn.linear model import Sxxlassifier 


>>># 标 准 化 数据 ,保证 每 个 维度 的 特征 数据 方差 为 1, 均 值 为 0。 使 得 预测 结果 不 会 被 某 些 维度 ， 
过 大 的 特征 值 而 主导 。 | 
>>> ss- StandardScaler () 

>>>X train-ss.fit transform(X train) 

»»»X test-ss.transform(X test) 


>>># 初 始 化 LogisticRegression 与 SSDclassifier。 

>>> l= logisticRegressicn() 

>>> syic- Classifier () 

>>># 调 用 LogisticRegression 中 的 fit KA ARIK FAK Vl RAMS HK, 

»»»1r.fit(X train, y train) 

>>># 使 用 训练 好 的 模型 Le Mt x test 进行 预测 ,结果 储存 在 变量 lr y predict H, 
>>> 1r y predict- Ir.predict(X test) 


>>># 调 用 sepclassifier 中 的 fit 函数 / 异 块 用 来 训练 模型 参数 。 

>>> sgdc.fit & train, y train) 

>>># 使 用 训练 好 的 模型 gic 对 x test 进行 预测 ,结果 储存 在 变量 agic y predict 中。 

>>> 5gdc y predict- sqdc.predict (X test) - 


* 性 能 测评 : 在 代码 15 的 最 后 ,我 们 分 别 利用 LogisticRegression 与 SGDClassifier 

针对 171 条 测试 样本 进行 预测 工作 。 由 于 这 171 条 测试 样本 拥有 正确 标记 ,并 记 

录 在 变量 y. test 中 ,因此 非常 直观 的 做 法 是 比 对 预测 结果 和 原本 正确 标记 ,计算 

171 条 测试 样本 中 , 预测 正确 的 百分比 。 我 们 在 把 这 个 百分比 称 作 准确 性 
(Accuracy) ,并 且 将 其 作为 评估 分 类 模型 的 一 个 重要 性 能 指标 。 

然而 ,在 许多 实际 问题 中 ,我 们 往往 更 加 关注 模型 对 某 一 特定 类 别 的 预测 能 力 。 这 

时 ,准确 性 指标 就 变 得 笼统 了 。 比 如 ,在 “ 良 / 恶 性 肿瘤 预测 任务 里 ,医生 和 患者 往往 更 加 

关心 有 多 少 恶 性 肿瘤 被 正确 地 诊断 出 来 ,因为 这 种 肿瘤 更 加 致命 。 也 就 是 说 ,在 二 分 类 任 

务 下 ,预测 结果 (Predicted Condition) 和 正确 标记 (True Condition) 之 间 存 在 4 种 不 同 的 

组 合 ,构成 混 清 矩阵 (Confusion Matrix). 如 图 2-4 所 示 。 如 果 恶 性 肿瘤 为 阳性 

(Positive) ,良性 肿瘤 为 阴性 (Negative) ,那么 ,预测 正确 的 恶性 肿瘤 即 为 真 阳 性 (True 

Positive) ,预测 正确 的 良性 肿瘤 为 真 阴性 (True Negative) ; 原本 是 良性 肿瘤 (Condition 








图 2-4 混 兆 矩 阵 示例 D( 见 彩 图 ) 





O 图 片 来 自 维基 百科 : https://en. wikipedia. org/ wiki/Precision_and_recall 


negative) , 误 判 为 恶性 肿瘤 (Predicted condition positive) ff Jj {B lH tE (False Positive) ;而 
实际 是 恶性 肿瘤 ,但 是 预测 模型 没有 检测 出 来 , 则 为 假 明 性 (False Negative), PRE, BE 
生 和 病 患 最 不 愿 看 到 的 是 有 假 阴 性 (False Negative) 的 结果 ,因为 这 种 误诊 会 耽误 病 患 的 
治疗 ,进而 危及 生命 。 

因此 ,除了 准确 性 (Accuracy) 之 外 ,我 们 还 引入 了 两 个 评价 指标 ,分 别 是 召回 率 
(Recall) 和 精确 率 (Precision) 。 它 们 的 定义 分 别 是 : 











Accuracy 一 
# (True positive) + # (True negative) (5) 
# (True positive) + # (True negative) + # (False positive) + # (False negative) 
OPES # (True positive) 
Precision # (True positive) + # (False positive) (6) 
Recall— # (True positive) (7) 


£ (True positive) + # (False negative) 
其 中 ,# (True positive) 代表 真 阳性 样本 的 数量 ,其 余 以 此 类 推 。 此 外 ,为 了 综合 考量 召 
回 率 与 精确 率 ,我 们 计算 这 两 个 指标 的 调和 平均 数 ,得 到 F1 指标 (Fl measure) : 

Fl me 一 T —— (8) 

Precision Recall 
式 (8) 之 所 以 使 用 调和 平均 数 ,是 因为 它 除了 有 具备 平均 功能 外 ,还 会 对 那些 召回 率 和 精确 
率 更 加 接近 的 模型 给 予 更 高 的 分 数 ;而 这 也 是 我 们 所 期 待 的 ,因为 那些 召回 率 和 精确 率 差 
距 过 大 的 学 习 模 型 ,往往 没有 足够 的 实用 价值 。 
回 到 本 节 所 讨论 的 任务 ,对 于 乳腺 癌 肿 瘤 预 测 的 问题 ,我 们 显然 更 加 关注 召回 率 ,也 

就 是 应 该 被 正确 识别 的 恶性 肿瘤 的 百分比 。 对 于 召回 率 更 高 的 预测 模型 ,医生 和 患者 会 
更 为 信赖 并 给 予 更 多 关注 。 因 此 ,让 我 们 用 代码 16 来 更 加 细致 地 分 析 一 下 两 个 模型 在 上 
述 4 个 指标 (准确 性 、 召 回 率 、 精 确 率 以 及 Fl 指标 ) 的 表现 情况 。 


[ts 16. 使 用 线性 分 类 模型 从 事 良 /恶性 肿瘤 预测 任务 的 性 能 分 析 


>>># 从 skleam.metrics 里 导入 classification report 模块 。 
>>> frm skleam.metrics import classification report 


>>># 使 用 有 逻辑 斯 蒂 回归 模型 自 带 的 评分 函数 score 获 得 模型 在 测试 集 上 的 准确 性 结果 。 
>>>print ‘Accuracy of IR Classifier:', lr.score(X test, y test) 

>>> + Al classification report 模 块 获得 Iogistichegression 其 他 三 个 指标 的 结果 。 
»»»print classification report (y test, lr y predict, target names- ['Benign', 'Malignant']) 


Benign 0.99 0.99 0.99 
Malignant 0.99 0.99 0.99 


avg / total 0.99 0.99 0.99 1n 


>>># 使 用 随机 梯度 下 降 模 型 自 带 的 评分 函数 score 获 得 模型 在 测试 集 上 的 准确 性 结果 。 
>>>print 'Accuarcy of SGD Classifier:', sgdc.score(X test, y test) 

>>># 利 用 classification report 模 块 获得 ssDclassifier 其 他 三 个 指标 的 结果 。 

>>>print classification report(y test, soi: y predict, target names- ['Benign', 'Milignant']) 


阅读 了 代码 16 输出 的 报告 之 后 ,我 们 可 以 发 现 ，LogisticRegression 比 起 
SGDClassifier 在 测试 集 上 表现 有 更 高 的 准确 性 (Accuracy)。 这 是 因为 Scikit-learn PR 
用 解析 的 方式 精确 计算 LogisticRegression 的 参数 ,而 使 用 梯度 法 估计 SGDClassifier 的 
参数 。 

。 特点 分 析 : 线性 分 类 器 可 以 说 是 最 为 基本 和 常用 的 机 器 学 习 模型 。 尽 管 其 受 限 

于 数据 特征 与 分 类 目标 之 间 的 线性 假设 ,我 们 仍然 可 以 在 科学 研究 与 工程 实践 中 
把 线性 分 类 器 的 表现 性 能 作为 基准 。 这 里 所 使 用 的 模型 包括 LogisticRegression 
与 SGDClassifier。 相 比 之 下 ,前 者 对 参数 的 计算 采用 精确 解析 的 方式 ,计算 时 间 
长 但 是 模型 性 能 略 高 ;后 者 采用 随机 梯度 上 升 算法 估计 模型 参数 ,计算 时 间 短 但 
是 产 出 的 模型 性 能 略 低 。 一 般 而 言 , 对 于 训练 数据 规模 在 10 万 量 级 以 上 的 数据 ， 
考虑 到 时 间 的 耗 用 ,笔者 更 加 推荐 使 用 随机 梯度 算法 对 模型 参数 进行 估计 。 


2.1.1.2 支持 向 量 机 (分 类 ) 


© 模型 介绍 : 在 第 1 章 的 “ 良 /恶性 乳腺 癌 肿 瘤 预测 ”的 例子 中 ,曾经 使 用 多 个 不 同 颜 
色 的 直线 作为 线性 分 类 的 边界 。 同 样 .如 图 2-5 所 示 的 数据 分 类 问题 ,我 们 更 有 
无 数 种 线性 分 类 边界 可 供 选 择 。 
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图 2-5 包括 支持 向 量 机 分 类 器 在 内 的 多 种 分 类 直线 ( 见 彩 图 ) 


图 2-5 中 提供 了 三 种 颜色 的 直线 ,用 来 划分 这 两 种 类 别 的 训练 样本 。 其 中 绿色 直线 
H 在 这 些 训练 样本 上 表现 不 佳 ,本 身 就 带 有 分 类 错误 ;橙色 直线 H; 和 红色 直线 Hs 如 果 作 
为 这 个 二 类 分 类 问题 的 线性 分 类 模型 ,在 训练 集 上 的 表现 都 是 完美 的 。 

然而 ,拓展 小 贴 士 4 和 拓展 小 贴 士 12 中 都 曾 提 到 过 ,由 于 这 些 分 类 模型 最 终 都 是 要 
应 用 在 未 知 分 布 的 测试 数据 上 ,因此 我 们 更 加 关注 如 何 最 大 限度 地 为 未 知 分 布 的 数据 提 
供 足 够 的 待 预测 空间 。 比 如 ,如 果 有 一 个 黑色 样本 稍稍 向 右 偏 离 橙色 直线 ,那么 这 个 黑色 
样本 很 有 可 能 被 误 判 为 白色 样本 ,造成 误差 ;而 红色 直线 在 空间 中 的 分 布 位 置 依然 可 以 为 
更 多 “稍稍 偏离 ”的 样本 提供 足够 的 “容忍 度 "。 因 此 ,我 们 更 加 期 望 学 习 到 红色 的 直线 作 
为 更 好 的 分 类 模型 。 

支持 向 量 机 分 类 器 (Support Vector Classifier) , 便 是 根据 训练 样本 的 分 布 ,搜索 所 有 
可 能 的 线性 分 类 器 中 最 佳 的 那个 了 ?。 进 一 步 仔 细 观 察 图 2-5 中 的 红色 直线 ,我 们 会 发 现 决 
定 其 直线 位 置 的 样本 并 不 是 所 有 训练 数据 ,而 是 其 中 的 两 个 空间 间隔 最 小 的 两 个 不 同类 
别 的 数据 点 ,而 我 们 把 这 种 可 以 用 来 真正 帮助 决策 最 优 线性 分 类 模型 的 数据 点 叫做 “支持 
向 量 "”。 敢 辑 斯 蒂 回归 模型 在 训练 过 程 中 由 于 考虑 了 所 有 训练 样本 对 参数 的 影响 ,因此 不 
一 定 获 得 最 住 的 分 类 器 。 

* 数据 描述 : 邮政 系统 每 天 都 会 处 理 大 量 的 信件 ,最 为 要 紧 的 一 环 是 要 根据 信件 上 


O 拓展 小 贴 士 14: 这 里 所 说 的 “最 佳 "不 是 绝对 的 。 换 句 话说 ,不 是 在 所 有 的 数据 集 上 ,支持 向 量 机 的 性 能 表现 就 一 定 优 于 普通 的 线 
性 模型 或 者 其 他 模型 。 这 里 的 假设 是 : 如 果 未 知 的 待 测 数据 也 如 训练 数据 一 样 分 布 ,那么 的 确 支持 向 量 机 可 以 帮助 我 们 找到 最 佳 的 分 类 
器 。 然 而 ,很 多 实际 应 用 数据 总 是 有 偏差 的 。 
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的 收 信人 邮编 进行 识别 和 分 类 ,以 便 确 定 信件 的 投 送 地 。 原 本 这 项 任务 是 依靠 大 
量 的 人 工 来 进行 ,后 来 人 们 尝试 让 计算 机 来 蔡 代 人 工 。 然 而 ,因为 多 数 的 邮编 都 
是 手写 的 数字 ,并 且 样 式 各 异 , 所 以 没有 统一 编制 的 规则 可 以 很 好 地 用 于 识别 和 
分 类 。 机 器 学 习 兴 起 之 后 ,开始 逐渐 有 研究 人 员 重 新 考虑 这 项 任务 ,并 且 有 大 量 
的 研究 证 明 ,支持 向 量 机 可 以 在 手写 体 数字 图 片 的 分 类 任务 上 展现 良好 的 性 能 。 
此 在 这 一 节 , 我 们 要 使 用 支持 向 量 机 分 类 器 处 理 Scikit-learn 内 部 集成 的 手写 
体 数 字 图 片 数 据 集 ?, 并 且 通 过 如 下 代码 提取 数据 : 














[ m 17: 手写 体 数据 读 取 代码 样 全 
>>># 从 skleam.datasets 里 导 人 手写 体 数字 加 载 器 。 
>>> frm skleam.datasets import load digits 
>>># 从 通过 数据 加 载 器 获得 手写 体 数字 的 数码 图 像 数据 并 储存 在 digits 变 量 中 。 
>>> digits= load digits() 
>>>+ 检 视 数据 规模 和 特征 维度 。 
>>> digits.data.shape 


(1797L, 64L) | 


代码 17 的 输出 表明 : 该 手写 体 数字 的 数码 图 像 数 据 共 有 1797 条 ,并 且 每 幅 图 片 是 
由 8x8-—64 的 像素 矩阵 表示 。 在 模型 使 用 这 些 像素 矩阵 的 时 候 , 我 们 习惯 将 2D 的 图 片 
像素 矩阵 逐 行 首尾 拼接 为 1D 的 像素 特征 向 量 。 这 样 做 也 许 会 损失 一 些 数据 本 身 的 结构 
信息 ,但 是 遗憾 的 是 ,我 们 当下 所 介绍 的 经 典 模型 都 没有 对 结构 性 信息 进行 学 习 的 
EHO, 

依照 惯例 ,对 于 没有 直接 提供 测试 样本 的 数据 ,我 们 都 要 通过 数据 分 割 获取 75% 的 
训练 样本 和 25% 的 测试 样本 ,代码 如 下 : 


| 代码 18: 手写 体 数据 分 割 代码 样 例 


>>># 从 skleam.cross validaticn 中 导入 train test split 用 于 数据 分 割 。 
>>> fran skleam.cross validation import train test split 


O 拓展 小 贴 士 15: Scikit-learn 中 集成 的 手写 体 数字 图 像 仅仅 是 https://archive. ics. uci. edu/ml/datasets/Optical + Recognition - of 
十 Handwritten 十 Digits 的 测试 数据 集 。 我 们 将 在 后 面 “2. 2. 2. 1 主 成 分 分 析 ” 节 中 使 用 完整 的 数据 集 进行 分 析 。 

© ”拓展 小 贴 士 16: 虽然 本 书 所 介绍 的 大 部 分 模型 都 没有 处 理 结构 化 数据 信息 的 能 力 , 但 是 感 兴趣 的 读者 可 以 跳跃 到 “4. 4 MNIST 
手写 体 数字 图 片 识 别 " 节 ,了 解 一 些 用 于 处 理 这 些 结构 化 图 片 信息 的 当下 流行 的 深度 学 习 技 术 。 
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>>># 随 机 选取 75% 的 数据 作为 训练 样本 ;其 余 25% 的 数据 作为 测试 样本 。 : 
>>>X train, X test, y train, y test-train test split (digits.data, digits.target, test_size= 0.25, | 
randam state- 33) i 


>>># 分 别 检视 训练 与 测试 数据 规模 。 
>>>Y train.shape 

QATL) 

>>>y test.shape 


usa) _| 


* 编程 实践 : 接 下 来 ,我 们 使 用 代码 18 所 产生 的 1347 条 样本 训练 基于 线性 假设 的 
支持 向 量 机 模型 ,代码 如 下 : 


[ «9 19: 使 用 支持 向 量 机 (分 类 ) 对 手写 体 数字 图 像 进行 识别 


>>># 从 sklearn.preprocessing 里 导 人 数据 标准 化 模块 。 

>>> fram sklearn.preprocessing import Standardscaler 

>>> # JA skleam.swm 里 导入 基于 线性 假设 的 支持 向 量 机 分 类 器 Linearsvc, 
>>> fram skleam.svm inport Linearsvc 


>>> # 从 仍然 需要 对 训练 和 测试 的 特征 数据 进行 标准 化 。 
>>> ss= StandardScaler () 

>>>X train-ss.fit transform(X train) 

>>>X test-ss.transfomm(X test) 


>>># 初 始 化 线性 假设 的 支持 向 量 机 分 类 器 Linearsvc. 

>>> Isve= Lineare () 

>>># 进 行 模型 训练 

>>> Isve.fit X train, y train) 

>>># 利 用 训练 好 的 模型 对 测试 样本 的 数字 类 别 进行 预测 ,预测 结果 储存 在 变量 y predict 中 。 
>>> y predict- Isve.predict (X test) 


* 性 能 测评 : 572.1. 1. 1 线性 分 类 器 ” 节 中 的 评价 指标 一 样 ,我 们 使 用 准确 性 、 召 回 
率 、 精 确 率 和 Fl 指标 ,这 4 个 测度 对 支持 向 量 机 (分 类 ) 模 型 从 事 手写 体 数字 图 像 
识别 任务 进行 性 能 评估 , 详 见 代码 20。 


代码 20; 支持 向 量 机 (分 类 ) 模 型 对 手写 体 数码 图 像 识别 能 力 的 评估 


>>># 使 用 模型 自 带 的 评估 函数 进行 准确 性 测评 。 

»»»print "The Accuracy of Linear SVC is', lsvc.score 区 test, y test) 

The Accuracy of Linear SVC is 0.953333333333 

>>># 依 然 使 用 skleam.metrics Hi jf) classification report 模 块 对 预测 结果 做 更 加 详细 的 分 析 。 

>>> fran skleam.netrics import classification report 

»»»print classification report (y test, y predict, target names-digits.target names.astype (str)) 
precision recall fl-score support 


0.92 
0.96 
0.98 
0.93 
0.97 
0.94 
0.96 
0.92 
0.98 
0.95 


werinuewnro 


avg / total 0.95 


通过 代码 20 的 测试 结果 可 以 知道 ,支持 向 量 机 (分 类 ) 模 型 的 确 能 够 提供 比较 高 的 手 


1.00 
0.98 
1.00 
0.93 
1.00 
0.94 
0.98 
1.00 
0.84 
0.91 


0.95 


0.96 
0.97 
0.99 
0.93 
0.99 
0.94 
0.97 
0.96 
0.91 
0.93 


0.95 
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写 体 数字 识别 性 能 。 平 均 而 言 ,各 项 指标 都 在 95% 上 下 。 


在 这 里 需要 进一步 指出 的 是 : 召回 率 、 准 确 率 和 Fl 指标 最 先 适用 于 二 分 类 任务 ;但 

是 在 本 示例 中 ,我 们 的 分 类 目标 有 10 个 类 别 , 即 0 一 9 的 10 个 数字 。 

上 述 三 个 指标 。 通 常 的 做 法 是 ,逐一 评估 某 个 类 别 的 这 三 个 性 能 指标 : 我 们 把 所 有 其 他 

的 类 别 看 做 阴性 ( 负 ) 样 本 ,这 样 一 来 ,就 创造 了 10 个 二 分 类 任务 。 事 实 上 ,不 仅 学 习 模 型 
在 对 待 多 类 分 类 任务 时 是 这 样 做 的 ,而且 代码 20 最 终 的 输出 也 证 明了 笔者 的 观点 。 

t 特点 分 析 : 支持 向 量 机 模型 曾经 在 机 器 学 习 研 究 领域 繁荣 发 展 了 很 长 一 段 时 间 。 

主要 原因 在 于 其 精妙 的 模型 假设 ,可 以 帮助 我 们 在 海量 甚至 高 维度 的 数据 中 ,得 

选 对 预测 任务 最 为 有 效 的 少数 训练 样本 。 这 样 做 不 仅 节省 了 模型 学 习 所 需要 的 

数据 内 存 , 同 时 也 提高 了 模型 的 预测 性 能 。 然 而 ,要 获得 如 此 的 优势 就 必然 要 付 


因此 无 法 直接 计算 
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出 更 多 的 计算 代价 (CPU 资源 和 计算 时 间 )。 因 此 ,请 读者 在 实际 使 用 该 模型 的 
时 候 ,权衡 其 中 的 利 刺 ,进而 达成 各 自 的 任务 目标 。 


2.1.1.3 朴素 贝 叶 斯 


。 模型 介绍 : 朴素 贝 叶 斯 (Naive Bayes) 是 一 个 非常 简单 ,但 是 实用 性 很 强 的 分 类 模 
型 。 不 过 ,和 上 述 两 个 基于 线性 假设 的 模型 (线性 分 类 器 和 支持 向 量 机 分 类 器 ) 不 
同 , 朴 素 贝 叶 斯 分 类 器 的 构造 基础 是 贝 叶 斯 理论 。 
抽象 一 些 说 ,朴素 贝 叶 斯 分 类 器 会 单独 考量 每 一 维度 特征 被 分 类 的 条 件 概 率 ,进而 综 
合 这些 概 率 并 对 其 所 在 的 特征 向 量 做 出 分 类 预测 。 因 此 ,这 个 模型 的 基本 数学 假设 是 : 
各 个 维度 上 的 特征 被 分 类 的 条 件 概率 之 间 是 相互 独立 的 。 
如 果 采 用 概率 模型 来 表述 , 则 定义 xx 一 一 zyzz,…'zr 为 某 一 维特 征 向 量 , y € 
(eis) 为 该 特征 向 量 x 所 有 上 种 可 能 的 类 别 , 记 P(y = ci | x) 为 特征 向 量 x 属 
FH c 的 概率 。 根 据 式 (9) 的 贝 叶 斯 原理 : 


P(y | x)= POL PO) (9) 


我 们 的 目标 是 寻找 所 有 y € (0.0) P P(y | x) 最 大 的 , 即 argmax P(y| x); 
并 且 考 虑 到 P Go 对 于 同一 样本 都 是 相同 的 ,因此 可 以 忽略 不 计 。 所 以 ， 
argmaxP (y|x)= argmaxP (xl y)P (y)= argmaxP (zi stat, y)P(y) (10) 
若 每 一 种 特征 可 能 的 取 值 均 为 0 或 者 1， 在 没有 任何 特殊 假设 的 条 件 下 ,计算 
Pez; eter | y) 需要 对 kx* 27 个 可 能 的 参数 进行 估计 : 
P (x15225 ,Tly)=P(n P (zzrioy)P Gs lai a2 y) P Gr li s225 stud) 
(11) 
但 是 由 于 朴素 贝 叶 斯 模型 的 特征 类 别 条 件 独立 假设 ，P(z, | zyzz，…zriyy) 一 
PGr, | y); 若 依然 每 一 种 特征 可 能 的 取 值 只 有 2 种 ,那么 只 需要 估计 2kn 个 参数 , 即 P(x 
-0|y-2a^»PG 21|ly2 e), PG, =1 | y= 4). 
为 了 估计 每 个 参数 的 概率 ,采用 如 下 的 公式 ,并 且 改 用 频率 比 近似 计算 概率 : 
P(r, =1,y =c) #(a, 一 1,y 一 ck) 
Ply = o) #(y =a) 
t 数据 描述 : 朴素 贝 叶 斯 模型 有 着 广泛 的 实际 应 用 环境 ,特别 是 在 文本 分 类 的 任务 
中 间 , 包 括 互联 网 新 闻 的 分 类 .垃圾 邮件 的 筛选 等 。 本 节 中 ,我 们 将 使 用 经 典 的 
20 类 新 闻 文 本 作为 试验 数据 。 获 取 数据 的 代码 如 下 : 





P(£,—1]|y-)— a2) 


| 代码 21: 读 取 20 类 新 闻 文 本 的 数据 细节 


>>># 从 skdleam.datasets 里 导入 新 闻 数 据 抓 取 器 fetch 20newsgroups。 

>>> from sklearn.datasets import fetch 20newsgroups 

>>># 与 之 前 预存 的 数据 不 同 , fetch 20newsgroups 需 要 即时 从 互联 网 下 载 数据 。 
>>> news= fetch 20newsgroups (subset= 'all') 

>>># 查 验 数据 规模 和 细节 。 

>>>print len (news.data) 

>>> print news.data[0] 

18846 


From: Maratha Devineni Ratnam «mr47- 8 andrew.qm.ed> 
Subject: Pens fans reactions 

Organization: Post Office, Carnegie Mallon, Pittsburgh, PA 
Lines: 12 

NNTP- Posting- Host: po4.andrew.am.edu 


I am sure same bashers of Pens fans are pretty confused about the lack 

of any kind of posts about the recent Pens massacre of the Devils. Actually, 

Iam bit puzzled too and a bit relieved. However, I am going to put an end 

to pon- PTttsburghers' relief with a bit of praise for the Pens. Man, they 

are killing those Devils worse than I thought. Jagr just showed you why 

he is much better than his regular season stats. He is also a lot 

fo fun to watch in the playoffs. Bowman should let Jagr have a lot of 

fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was: 
‘very disappointed not to see the Islanders lose the final 

regular season game. FENS ROLE!!! J 


由 代码 21 的 输出 ,可 获知 该 数据 共有 18846 条 新 闻 ;不 同 于 前 面 的 样 例 数据 ,这 些 文 
本 数据 既 没 有 被 设 定 特征 ,也 没有 数字 化 的 量度 。 因 此 ,在 交 给 朴素 贝 叶 斯 分 类 器 学 习 之 
前 ,要 对 数据 做 进一步 的 处 理 。 不 过 在 此 之 前 ,我 们 仍然 需要 如 代码 22 所 示 ,对 数据 进行 
分 割 并 且 随 机 采样 出 一 部 分 用 于 测试 。 


[ 代码 22. 20 类 新 闻 文 本 数据 分 割 


>>># 从 skleam.cross validation A train test split, 
>>> fran sklearn.cross validation import train test split 
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>>># 随 机 采样 25% 的 数据 样本 作为 测试 集 。 


>>>X train, X test, y train, y test-train test split (news.data, news.target, test size- 0.25,: 


ranim state- 33) | 


t 编程 实践 : 这 部 分 的 工作 首先 将 文本 转化 为 特征 向 量 , 然 后 利用 朴素 贝 叶 斯 模型 
从 训练 数据 中 估计 参数 ,最 后 利用 这 些 概率 参数 对 同样 转化 为 特征 向 量 的 测试 新 
闻 样 本 进行 类 别 预测 ,如 代码 23 所 示 。 


[ «59 23. 使 用 朴素 贝 叶 斯 分 类 器 对 新 闻 文本 数据 进行 类 别 预测 


>>># 从 skleam. feature extracticon.text 里 导入 用 于 文本 特征 向 量 转化 模块 。 详 细 介 绍 请 读者 参 
考 “3.1.1.1 特征 抽取 ” 节 。 

>>> from sklearn.feature extraction.text import CountVectorizer 

>>> vec= CountVectorizer () 

>>>X_train= vec.fit_transform( train) 

>>> X_test= vec. transform test) 


>>># 从 sklsam.naive bayes 里 导 和 人 朴素 贝 叶 斯 模型 。 

>>> from sklearn.naive bayes import MiltinomialNB 

>>> # 从 使 用 默认 配置 初始 化 朴素 贝 叶 斯 模型 。 

>>>mb=MütinmialNe() 

>>># 利 用 训练 数据 对 模型 参数 进行 估计 。 

»»»mpb.fit(X train, y train) 

>>> & 对 测试 样本 进行 类 别 预测 ,结果 存储 在 变量 y predict 中 。 

>>>Y predict=mb.predict (X test) _| 


* 性 能 测评 : 5572. 1.1. 1 线性 分 类 器 ” 节 的 评价 指标 一 样 ,我 们 使 用 准确 性 、 召 回 
率 、 精 确 率 和 Fl 指标 ,这 4 个 测度 对 朴素 贝 叶 斯 模型 在 20 类 新 闻 文 本 分 类 任务 
上 的 性 能 进行 评估 ,详细 代码 如 下 所 示 。 


Baz 对 朴素 贝 叶 斯 分 类 器 在 新 闻 文本 数据 上 的 表现 性 能 进行 评估 


>>># 从 skleam.metrics 里 导入 classification report 用 于 详细 的 分 类 性 能 报告 。 
>>> frm skleam.metrics import classification report 

>>>print "Ihe accuracy of Naive Bayes Classifier is', mmb.score(X test, y test) 
»»»print classification report(y test, y predict, target names-news.target names) 


The accuracy of Naive Bayes Classifier is 0.839770797963 


avg / total 


precision recall 
0.86 0.86 
0.59 0.86 
0.89 0.10 
0.60 0.88 
0.93 0.78 
0.82 0.84 
0.91 0.70 
0.89 0.89 
0.98 0.22 
0.98 0.91 
0.93 0.99 
0.86 0.98 
0.85 0.88 
0.92 0.94 
0.89 0.96 
0.78 0.96 
0.88 0.96 
0.90 0.98 
0.79 0.89 
0.93 0.44 
0.86 0.84 


0.82 
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通过 代码 24 的 输出 ,我们 获知 朴素 贝 叶 斯 分 类 器 对 4712 条 新 闻 文 本 测试 样本 分 类 
的 准确 性 约 为 83. 977 95 ,平均 精确 率 、 召 回 率 以 及 F1 指标 分 别 为 0. 86、0. 84 和 0. 82。 
。 特点 分 析 : 朴素 贝 叶 斯 模型 被 广泛 应 用 于 海量 互联 网 文本 分 类 任务 。 由 于 其 较 
强 的 特征 条 件 独 立 假设 ,使 得 模型 预测 所 需要 估计 的 参数 规模 从 寡 指 数量 级 向 线 
性 量 级 减少 , 极 大 地 节约 了 内 存 消耗 和 计算 时 间 。 但 是 ,也 正 是 受 这 种 强 假设 的 
限制 ,模型 训练 时 无 法 将 各 个 特征 之 间 的 联系 考量 在 内 ,使 得 该 模型 在 其 他 数据 


特征 关联 性 较 强 的 分 类 任务 上 的 性 能 表现 不 佳 。 


2.1.1.4. K 近邻 (分 类 ) 


。， 模 型 介绍 : K 近邻 模型 本 身 非常 直观 并 且 容 易 理解 。 算 法 描述 起 来 也 很 简单 ,如 
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图 2-6 所 示 。 假 设 我 们 有 一 些 携带 分 类 标记 的 训练 样本 ,分布 于 特征 空间 中 ; 蓝 
色 、 绿 色 的 样本 点 各 自 代 表 其 类 别 。 对 于 一 个 待 分 类 的 红色 测试 样本 点 ,未 知 其 
类 别 , 按 照 成 语 “ 近 朱 者 赤 . 近 墨 者 黑 ” 的 说 法 ,我 们 需要 寻找 与 这 个 待 分 类 的 样本 
在 特征 空间 中 距离 最 近 的 K 个 已 标记 样本 作为 参考 ,来 帮助 我 们 做 出 分 类 决策 。 
这 便 是 K 近邻 算法 的 通俗 解释 。 而 在 图 2-6 中 ,如 果 我 们 根据 最 近 的 K = 3 个 
带 有 标记 的 训练 样本 做 分 类 决策 ,那么 待 测试 的 样本 应 该 属于 绿色 类 别 , 因 为 在 
3 个 最 近邻 的 已 标记 样本 中 ,绿色 类 别 样本 的 比例 最 高 ;如 果 我 们 扩大 搜索 范围 ， 
设 定 K = 7, 那 么 分 类 器 则 倾向 待 测 样本 属于 蓝 色 。 因 此 我 们 也 可 以 发 现 , 随 着 
K 的 不 同 , 我 们 会 获得 不 同 效果 的 分 类 器 2。 
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图 2-6 K 近邻 算法 展示 样 例 ( 见 彩 图 ) 


数据 描述 : 在 这 一 节 , 我 们 向 读者 朋友 展示 如 何 利用 K 近邻 算法 对 生物 物种 进行 
分 类 ,并 且 使 用 最 为 著名 的 “ 意 尾 (Iris) 数 据 集 。 该 数据 集 曾经 被 Fisher 用 在 其 
经 典 论 文中 中 ,目前 作为 教科 书 般 的 数据 样本 预存 在 Scikit-learn 的 工具 包 中 。 
下 面 的 代码 25 将 指导 各 位 如 何 读 取 该 数据 。 


[ «9 25. 读 取 Iris 数据 集 细节 资料 


>>># 从 skleam.datasets FA iris 数 据 加 载 器 。 
>>> fran sklearn.datasets import load iris 





O 拓展 小 贴 士 16: 这 里 是 想 向 读者 暗示 一 件 事情 : K 不 属于 模型 通过 训练 数据 学 习 的 参数 ,因此 要 在 模型 初始 化 过 程 中 提前 确定 ; 
但 是 天 值 的 不 同 又 会 对 模型 的 表现 性 能 有 巨大 影响 ,所 以 需要 我 们 给 予 更 多 关注 。 这 些 笔者 都 会 在 第 3 章 中 深入 讨论 。 


>>># 使 用 加 载 器 读 取 数 据 并 且 存 人 变量 inis. 


>>>iris= lod iris() 


>>># 查 验 数 据 规模 。 
>>> iris.data.shape 


(150L, 4n) 


>>># 查 看 数据 说 明 。 对 于 一 名 机 器 学 习 的 实践 者 来 讲 , 这 是 一 个 好 习惯 。 
>>>print iris.IDEScR 


Iris Plants Database 


Notes 
Data Set Characteristics: 
Number of Instances: 150 (50 in each of three classes) 
:Nunber of Attributes: 4 numeric, predictive attributes and the class 
:Attribute Infomation: 
- spal length in an 
— spal width in am 
-petal length in an 
-petal width in an 





sepal length: 4.3 7.9 5.84 0.83 0.7826 


sepal width: 2.0 44 305 043 -0.494 
petal length: 1.0 69 3.76 1.76 0.900 (high!) 
petal width: 0.1 2.5 1.20 0.76 0.955 (high!) 






:Missing Attribute Values: None 
:Class Distribution: 33.3% for each of 3 classes. 


:Creator: R.A. Fisher 
:Donor: Michael Marshall (MARSHALLA PLU@ io.arc.nasa.gov) 


:Date: July, 1968 | 


通过 上 述 代码 对 数据 的 查验 以 及 数据 本 身 的 描述 ,我 们 了 解 到 Iris 数据 集 共 有 150 
采 敬 尾数 据 样本 ,并且 均 匀 分 布 在 3 个 不 同 的 亚 种 ;每 个 数据 样本 被 4 个 不 同 的 花瓣 . 花 
昔 的 形状 特征 所 描述 。 由 于 没有 指定 的 测试 集 , 因 此 按照 惯例 ,我 们 需要 对 数据 进行 随机 
分 割 ,25% 的 样本 用 于 测试 ,其 余 75% 的 样本 用 于 模型 的 训练 。 

这 里 我 们 需要 额外 强调 的 是 ,如 果 读 者 朋友 自行 编写 数据 分 割 的 程序 ,请 务必 要 保证 
随机 采样 。 尽 管 许多 数据 集中 样本 的 排列 顺序 相对 随机 ,但 是 也 有 例外 。 本 例 Iris 数据 
集 便 是 按照 类 别 依次 排列 。 如 果 只 是 采样 前 25% 的 数据 用 于 测试 ,那么 所 有 的 测试 样本 
都 属于 一 个 类 别 , 同 时 训练 样本 也 是 不 均衡 的 (Unbalanced) ,这 样 得 到 的 结果 存在 偏 置 
(Bias) ,并 且 可 信和 度 非常 低 。Scikit-learn 所 提供 的 数据 分 割 模 块 ,如 代码 26 所 示 默 认 了 
随机 采样 的 功能 ,因此 大 家 不 必 担 心 。 


[rs 26: 对 Iris 数据 集 进行 分 割 


>>># 从 skleam.cross validaticn 里 选择 导 人 train test split 用 于 数据 分 割 。 

>>> from sklearn.cross validation import train test split 

>>># 从 使 用 train test split, 利 用 随机 种 子 random state RAF 25% 的 数据 作为 测试 集 。 

>>>X train, X test, y train, y test- train test split (iris.data, iris.target, test size- 0. 
randm state- 33) 





。 编程 实践 : 接 下 来 ,我 们 在 代码 27 中 ,使 用 Scikit-learn 中 的 K 近邻 分 类 器 ,对 测 
试 样本 进行 分 类 预测 : 


[ts 27. 使 用 K 近邻 分 类 器 对 营 尾 花 (Iris) 数 据 进行 类 别 预测 


>>># 从 sklearn.preprocessing 里 选择 导入 数据 标准 化 模块 。 

>>> fran sklearn.preprocessing import Standardscaler 

>>># 从 skleam.neighbors 里 选择 导入 ENeigtborsClassifier, Bl K 近 邻 分 类 器 。 
>>> fran skleam.neighbors import KNeighborsClassifier 


>>># 对 训练 和 测试 的 特征 数据 进行 标准 化 。 
>>> ss= Standardscaler () 
>>>X train-ss.fit transform(X train) 


>>>X test- ss.transform(x test) 


>>># 使 用 K 近 邻 分 类 器 对 测试 数据 进行 类 别 预测 ,预测 结果 储存 在 变量 y predict 中 。 


>>> knc- KNeighborsClassifier () 
>>> knc.fit(X train, y train) 
>>> y predict- knc.predict (X test) | 


* 性 能 测评 : 与 “2. 1. 1.1 线性 分 类 器 ” 节 中 的 评价 指标 一 样 ,使 用 准确 性 、 召 回 率 、 
精确 率 和 Fl 指标 ,4 个 测度 对 K 近邻 分 类 模型 在 经 典 意 尾 花 品种 预测 任务 上 进 
行 性 能 评估 , 详 见 代 码 28。 


[ts 28. 对 K 近邻 分 类 器 在 营 尾 花 (lris) 数 据 上 的 预测 性 能 进行 评估 


>>># 使 用 模型 自 带 的 评估 函数 进行 准确 性 测评 。 
>>>print "The accuracy of K- Nearest Neighbor Classifier is', knc.score(X test, y test) 
The accuracy of K- Nearest Neighbor Classifier is 0.894736842105 


>>># 依 然 使 用 skleam.metrics Hi iff hy classification report 模 块 对 预测 结果 做 更 加 详细 的 分 析 。 
>>> frm skleam.metrics import classification report 
»»»print classification report(y test, y predict, target names- iris.target names) 

precision recall fl- score support 


setosa 1.0 1.00 1.0 8 
versicolor 0.73 1.00 0.85 n 
virginica 1.00 0.79 0.88 19 
avg / total 0.92 0.89 0.90 38 


- 


代码 28 的 输出 说 明 ,K 近邻 分 类 器 对 38 条 昔 尾 花 测试 样本 分 类 的 准确 性 约 为 
89. 474 96 ,平均 精确 率 、 召 回 率 以 及 Fl 指标 分 别 为 0.92、0. 89 和 0. 90。 
。 特点 分 析 : K 近邻 (分 类 ) 是 非常 直观 的 机 器 学 习 模型 ,因此 深 受 广大 初学 者 的 喜 
爱 。 许 多 教科 书 常常 以 此 模型 为 例 抛砖引玉 , 便 足 以 看 出 其 不 仅 特别 ,而 且 尚 有 
HU Zab, AAS RK 近邻 算法 与 其 他 模型 最 大 的 不 同 在 于 : 该 模型 
没有 参数 训练 过 程 。 也 就 是 说 ,我 们 并 没有 通过 任何 学 习 算法 分 析 训 练 数据 ,而 


只 是 根据 测试 样本 在 训练 数据 的 分 布 直接 做 出 分 类 决策 。 因 此 ,K 近邻 属于 无 参 
数 模型 (Nonparametric model) 中 非常 简单 一 种 。 然 而 , 正 是 这 样 的 决策 算法 , 导 
致 了 其 非常 高 的 计算 复杂 度 和 内 存 消耗 。 因 为 该 模型 每 处 理 一 个 测试 样本 ,都 需 
要 对 所 有 预先 加 载 在 内 存 的 训练 样本 进行 遍历 .逐一 计算 相似 度 .排序 并 且 选 取 
K 个 最 近邻 训练 样本 的 标记 ,进而 做 出 分 类 决策 。 这 是 平方 级 别 的 算法 复杂 度 ， 
一 旦 数据 规模 稍 大 ,使 用 者 便 需 要 权衡 更 多 计算 时 间 的 代价 了 。 


2.1.1.5 决策 树 


。 模型 介绍 : 在 前 面 所 使 用 的 逻辑 斯 蒂 回 归 和 支持 向 量 机 模型 ,都 在 某 种 程度 上 要 
求 被 学 习 的 数据 特征 和 目标 之 间 遵 照 线性 假设 。 然 而 ,在 许多 现实 场景 下 ,这 种 
假设 是 不 存在 的 。 
比如 ,如 果 要 借 由 一 个 人 的 年 龄 来 预测 患 流感 的 死亡 率 。 如 果 采 用 线性 模型 假设 ,那么 
只 有 两 种 情况 : 年 龄 越 大 死亡 率 越 高 ;或 者 年 龄 越 小 死亡 率 越 高 。 然 而 ,根据 常识 判断 , 青 
壮年 因为 更 加 健全 的 免疫 系统 , 相 较 于 儿童 和 老年 人 不 容易 因 患 流感 死亡 。 因 此 ,年 龄 与 因 
流感 而 死亡 之 间 不 存在 线性 关系 。 如 果 要 用 数学 表达 式 描 述 这 种 非 线性 关系 ,使 用 分 段 
函数 最 为 合理 ;而 在 机 器 学 习 模型 中 ,决策 树 就 是 描述 这 种 非 线 性 关系 的 不 二 之 选 。 
再 比如 ,信用 卡 申 请 的 审核 涉及 申请 人 的 多 项 特征 ,也 是 典型 的 决策 树 模型 。 正 如 
图 2-7 所 示 : 决策 树 节点 (node) 代 表 数 据 特 征 , 如 年 龄 (age) 、 身 份 是 否 是 学 生 (student) 、 
信用 评级 (credict_rating) 等 ;每 个 节点 下 的 分 支 代表 对 应 特征 值 的 分 类 ,如 年 龄 包括 年 轻 
人 (youth) .中 年 人 (middle_aged) 以 及 老年 人 (senior) ,身份 区 分 是 否 是 学 生 ,等 等 :而 决 
策 树 的 所 有 叶子 节点 (leaf) 则 显示 模型 的 决策 结果 。 对 于 是 否 通过 信用 卡 申请 而 言 ,这 
是 二 分 类 决策 任务 ,因此 只 有 yes 和 no 两 种 分 类 结果 。 
如 图 2-7 所 示 ,这 类 使 用 多 种 不 同 特征 组 合 搭建 多 层 决策 树 的 情况 ,模型 在 学 习 的 时 
候 就 需要 考虑 特征 节点 的 选取 顺序 。 常 用 的 度量 方式 包括 信息 炉 (Information Gain) 和 
基尼 不 纯 性 (Gini Impurity)@。 本 书 将 不 做 过 多 引申 ,有 兴趣 的 读者 可 以 参阅 参考 文献 [8] 
的 第 5 章 。 
。 数据 描述 : 虽然 很 难 获取 到 信用 卡 公司 客户 的 资料 .但 是 也 有 类 似 借 助 客户 档案 
进行 二 分 类 的 任务 。 本 节 要 使 用 的 数据 来 自 于 历史 上 一 件 家 喻 户 晓 的 灾难 性 事 


O 拓展 小 贴 士 17: 对 K 近邻 有 深入 了 解 的 读者 一 定 会 反驳 这 个 观点 ,因为 有 类 似 KD-Tree 这 样 的 数据 结构 , 透 过 “空间 换取 时 间 ” 
的 思想 ,节省 决策 时 间 。 考 虑 到 本 书 的 受众 ,作者 只 在 这 里 提 及 ,有 兴趣 的 读者 可 以 自行 深入 研究 和 探讨 。 

© 拓展 小 贴 士 18: 阅读 Scikit-learn 中 决策 树 模型 的 文档 http://scikit-learn. org/stable/modules/generated/sklearn. tree. 
DecisionTreeClassifier. html # sklearn. tree. DecisionTreeClassifier 可 以 知道 ,默认 配置 的 决策 树 模型 使 用 的 是 基尼 不 纯 性 (Gini impurity) 
作为 排序 特征 的 度量 指标 。 


第 2 章 Zum ¢ sr: 




















B27 信用 卡 申请 自动 审核 任务 的 决策 树 模 型 


件 : 泰坦 尼克 号 沉船 事故 。1912 年 ,当时 隶属 于 英国 的 世界 级 豪华 客轮 泰坦 尼克 
号 , 因 在 处 女 航行 中 不 幸 撞 上 北大 西洋 冰山 而 沉没 。 这 场 事故 使 得 1500 多 名 乘 
客 坎 难 。 后 来 ,这 场 震惊 世界 的 惨剧 被 详细 地 调查 ,而且 遇难 乘客 的 信息 也 逐渐 
被 披露 。 在 当时 的 救援 条 件 下 ,无 法 在 短 时 间 内 确认 每 位 乘客 生还 的 可 能 性 。 而 
今 ,许多 科学 家 试图 通过 计算 机 模拟 和 分 析 找 出 潜藏 在 数据 背后 的 生还 迎 辑 。 
面 ,通过 代码 29 ,尝试 揭 开 这 人 尘封 了 100 多 年 的 数据 的 面纱 。 


a 29 泰坦 尼克 号 乘客 数据 查验 


>>># 导 人 pandas 用 于 数据 分 析 。 

>>> import pandas as pd 

>>># 利 用 pandas 的 read csv 模 块 直接 从 互联 网 收集 泰坦 尼克 号 乘客 数据 。 

>>> titanic= pd.read csv('http://biostat-mc vanderbi 1t .edu/wiki /pub/Msin/DataSets/titanic. txt") 
>>> # 观察 前 几 行 数据 ,可 以 发 现 ,数据 种 类 各 异 ,数值 型 .类 别 型 ,甚至 还 有 缺失 数据 。 
>>>titanic.head() 


























| |rowinames | pclass | survived | name age [embarked  |home.dest room ticket |boat | sex 
: en 
oh m fa men ass Etabet aon |20.0000|sovnanpton|sttous.wo ls E o erae 
i Montreal, PQ / 
iM2 1st 0 Alison, Miss Helen Loraine 20000 | Southampton | chestervile ON C26 |NaN [NaN |female 
: Montreal, PQ/ 
ias ist 0 Alison, Mr Hudson Joshua Creighton |30.0000| Southampton SION C26 |NaN |(135))male 
Alison, Mrs Hudson J.C. (Bessie Montreal, PO/ 
aja 1st 0 lido Daniela) 25.0000 | Southampton wile. OM C26 |NaN = |NaN |female 
ast it Allison, Master Hudson Trevor 0.9187 | Southampton oneal, POS C22 |nan |11 [male 


Chesterville, ON 









































58 :Pyhm 机 器 学 习 及 实 路 


>>># 使 用 pandas, 数 据 都 转 入 pandas 独 有 的 dataframe 格 式 (二 维 数据 表格 ) ,直接 使 用 info(), 查 : 
看 数据 的 统计 特性 。 

>>> titanic.info() 

«class 'pancas.core.frare.DataFrame!'» 

IJnt64Tndex: 1313 entries, 0 to 1312 

Data colums (total 11 colums) : 


IOW.Dames 1313 non- null int64 
pelass 1313 nom- mill dbject 

survived 1313 non- null intes 

rere 1313 nor- mill cbject 

age 633 nar null floaté4 

enbarked 821 nom- mull cbject 

home.dest 754 nom- null cbject 

roan TI nor mill cbject 

ticket 69 nom- null cbject 

boat 347 nom- mull cbject 

sex 1313 non- mill abject 

dtypes: floaté4 (1), inte4(2), dbject (8) 

memory usage: 123.1+ KB J 


代码 29 的 一 系列 输出 说 明 : 该 数据 共有 1313 条 乘客 信息 ,并 且 有 些 特 征 数据 是 完 
整 的 (如 pclass name) ,有些 则 是 缺失 的 ;有 些 是 数值 类 型 的 ,有 些 则 是 字符 串 。 
* 编程 实践 : 比 起 之 前 使 用 过 的 数据 样 例 ,这 次 的 数据 年 代 更 加 久远 ,难免 会 有 信 
息 丢 失 和 不 完整 ;甚至 ,许多 数据 特征 还 没有 量化 。 因 此 ,在 使 用 决策 树 模型 进行 
训练 学 习 之 前 ,需要 对 数据 做 一 些 预 处 理 和 分 析 工 作 , 如 代码 30 所 示 。 


[ «9 30. 使 用 决策 树 模型 预测 泰坦 尼克 号 乘客 的 生还 情况 


>>># 机 器 学 习 有 一 个 不 太 被 初学 者 重视 并 且 耗 时 ,但 是 十 分 重要 的 一 环 一 一 特征 的 选择 ,这 个 
需要 基于 一 些 背 景 知识 。 根 据 我 们 对 这 场 事故 的 了 解 , sex, age, Pclass 这 些 特 征 都 很 有 可 能 是 决 
定 幸免 与 否 的 关键 因素 。 

22» X-titanic[['pclass!, 'age', 'sex']] 

>>> titanic('survived!] 


>>># 对 当前 选择 的 特征 进行 探查 。 
>>>X.info() 





<class 'pandas.core.frame.DataFrame'» 
Inté4Index: 1313 entries, 0 to 1312 
Data columns (total 3 colums) : 
pelass 1313 nar mull cbject 

age 633 non- mull floates 

sex 1313 nar- null cbject 
dtypes: floate4(1), d»ject (2) 

memory usage: 41.0+ KB 


>>># 借 由 上 面 的 输出 ,我 们 设计 如 下 几 个 数据 处 理 的 任务 : 
>>>#1) age 这 个 数据 列 , 只 有 633 个 ,需要 补 完 。 
>>># 2) sex 与 pclass 两 个 数据 列 的 值 都 是 类 别 型 的 ,需要 转化 为 数值 特征 ,用 0 人 1 代替 。 


>>># 首 先 我 们 补充 age 里 的 数据 ,使 用 平均 数 或 者 中 位 数 都 是 对 模型 偏离 造成 最 小 影响 的 策略 。 
»»» X['age'].fillna(X['age'] mean (), inplace- True) 


>>># 对 补 完 的 数据 重新 探查 。 
»»»X.info() 

«class "pandas.core. frame. DataFrame'> 
‘IntédIndex: 1313 entries, 0 to 1312 
Data colums (total 3 colums) : 
palass 1313 nar- mull cbject 

age 1313 non- null floate4s 
sex 1313 nom- mull cbject 
types: floated (1), doject (2) 

memory usage: 41.0+ KB 


>>># 由 此 得 知 ,age 特征 得 到 了 补 完 。 
>>> # RUE St Hl. 
>>> from skleam.cross validation import train test split 


>>>X train, X test, y train, y test-train test split(X, y, test size-0.25, randm state- 33) 


>>># 使 用 scikit- leamn.feature extraction 中 的 特征 转换 器 , 详 见 3.1.1.1 特 征 抽取 。 
>>> fran skleam. feature extraction import DictVectorizer 





>>> vec- Dictectorizer (sparse- False) 


>>>+# 转 换 特征 后 ,我 们 发 现 凡是 类 别 型 的 特征 都 单独 剥离 出 来 , 独 成 一 列 特征 ,数值 型 的 则 保持 


不 变 。 
>>>X train-vec.fit transform(X train.to dict (orient= 'record')) 
>>> print vec.feature names - 


['age', 'pclass- 1st', 'pclass-2nd', 'pclass-3rd', 'sex-female', 'sex-male'] 


>>> 同样 需要 对 测试 数据 的 特征 进行 转换 。 
>>>X test-vec.transfom(X test.to dict (orient- 'record')) 


>>># 从 skleam.tree 中 导入 决策 树 分 类 器 。 

>>> from sklearn.tree import DecisionTreeClassifier 
>>># 使 用 默认 配置 初始 化 决策 树 分 类 器 。 

>>> dtc- Decisionmreeclassifier() 

>>># 使 用 分 割 到 的 训练 数据 进行 模型 学 习 。 

>>> dtc.fit K train, y train) 

>>># 用 训练 好 的 决策 树 模型 对 测试 特征 数据 进行 预测 。 
>>>Y predict- dtc.predict (X test) 


-| 


* 性 能 测评 : 使 用 同样 用 于 分 类 任务 的 多 种 性 能 测评 指标 ,通过 代码 31 对 乘客 是 否 


生还 的 预测 结果 进行 评价 。 


[ «9 31: 决策 树 模型 对 泰坦 尼克 号 乘客 是 否 生还 的 预测 性 能 


>>># 从 skleam.metrics A classification report. 
>>> from skleam.metrics import classification report 


>>># 输 出 预测 准确 性 。 
>>>print dtc.score(X test, y test) 
>>># 输 出 更 加 详细 的 分 类 性 能 . 
>>> print classification report (y predict, y test, target names- ['died', 
'survived']) 
0. 781155015196 
precision recall fl- score 
died 0.91 0.78 0.84 
survived 0.58 0.80 0.67 
avg / total 0.81 0.78 0.79 


cou d 


代码 31 的 输出 表明 : 决策 树 模型 总 体 在 测试 集 上 的 预测 准确 性 约 为 78. 1226. VEA 
的 性 能 指标 进一步 说 明 ,该 模型 在 预测 遇难 者 方面 性 能 较 好 ; 却 需要 在 识别 生还 者 的 精确 
率 方面 下 功夫 。 
。 特点 分 析 : 相 比 于 其 他 学 习 模型 ,决策 树 在 模型 描述 上 有 着 巨大 的 优势 。 决 策 树 
的 推断 多 辑 非常 直观 .具有 清晰 的 可 解释 性 ,也 方便 了 模型 的 可 视 化 。 这 些 特 性 
同时 也 保证 在 使 用 决策 树 模 型 时 ,是 无 须 考虑 对 数据 的 量化 甚至 标准 化 的 。 并 
且 , 与 前 一 节 K 近邻 模型 不 同 ,决策 树 仍然 属于 有 参数 模型 ,需要 花费 更 多 的 时 
间 在 训练 数据 上 。 


2.1.1.6 集成 模型 (分 类 ) 


。 模型 介绍 : 常言 道 : “一 个 篇 爷 三 个 桩 ,一 个 好 汉 三 个 帮 ”。 集 成 (Ensemble) 分 类 
模型 便 是 综合 考量 多 个 分 类 器 的 预测 结果 ,从 而 做 出 决策 。 只 是 这 种 “综合 考量 ” 
的 方式 大 体 上 分 为 两 种 : 
一 种 是 利用 相同 的 训练 数据 同时 搭建 多 个 独立 的 分 类 模型 ,然后 通过 投票 的 方式 ,以 
少数 服从 多 数 的 原则 作出 最 终 的 分 类 决策 。 比 较 具有 代表 性 的 模型 为 随机 森林 分 类 器 
(Random Forest Classifier) , 即 在 相同 训练 数据 上 同时 搭建 多 棵 决策 树 (Decision Tree) 。 
然而 ,在 2.1.1.5 决策 树 一 节 提 到 过 ,一 株 标准 的 决策 树 会 根据 每 维特 征 对 预测 结果 的 影 
响 程 度 进 行 排序 ,进而 决定 不 同 特征 从 上 至 下 构建 分 裂 节 点 的 顺序 ;如 此 一 来 ,所 有 在 随 
机 森林 中 的 决策 树 都 会 受 这 一 策略 影响 而 构建 得 完全 一 致 ,从 而 形 失 了 多 样 性 。 因 此 , 随 
机 森林 分 类 器 在 构建 的 过 程 中 ,每 一 棵 决策 树 都 会 放弃 这 一 固定 的 排序 算法 , 转 而 随机 选 
取 特 征 。 
另 一 种 则 是 按照 一 定 次 序 搭建 多 个 分 类 模型 。 这 些 模型 之 间 彼 此 存在 依赖 关系 。 
般 而 言 ,每 一 个 后 续 模 型 的 加 入 都 需要 对 现 有 集成 模型 的 综合 性 能 有 所 贡献 .进而 不 断 提 
升 更 新 过 后 的 集成 模型 的 性 能 ,并 最 终 期 望 借助 整合 多 个 分 类 能 力 较 弱 的 分 类 器 ,搭建 出 
具有 更 强 分 类 能 力 的 模型 。 比 较 具 有 代表 性 的 当 属 梯度 提升 决策 树 (Gradient Tree 
Boosting) 。 与 构建 随机 森林 分 来 器 模型 不 同 ,这 里 每 一 棵 决策 树 在 生成 的 过 程 中 都 会 尽 
可 能 降低 整体 集成 模型 在 训练 集 上 的 拟 合 误差 。 
。 数据 描述 : 为 了 对 比 单一 决策 树 (Decision Tree) 与 集成 模型 中 随机 森林 分 类 器 
(Random Forest Classifier) 以 及 梯度 提升 决策 树 (Gradient Tree Boosting) 的 性 
能 差异 ,下 面 依旧 使 用 泰坦 尼克 号 的 乘客 数据 。 

。 编程 实践 : 在 代码 32 中 ,使 用 相同 的 训练 数据 与 测试 数据 ,并 利用 单一 决策 树 . 随 
机 森林 分 类 以 及 梯度 上 升 决策 树 ,3 种 模型 各 自 的 默认 配置 进行 初始 化 .从事 预 
测 活动 。 
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[ 59 32. 集成 模型 对 泰坦 尼克 号 乘客 是 否 生 还 的 预测 


>>># 导 入 pandas, 并 且 重 命名 为 pd 
>>> import pandas as pd 


>>># 通 过 互联 网 读 取 泰坦 尼克 乘客 档案 ,并 存储 在 变量 titanic 中 。 
>>> titanic-pd.read csv ("http://biostat mc.vanderbilt..edu/wiki /pub/Main/DataSets/titanic.txt') 


>>># 人 工 选取 pclass、age 以 及 sex 作 为 判别 乘客 是 否 能 够 生还 的 特征 。 
»»»X-titanic[['pclass', 'age', 'sex']] 
>>>y titanic['survived'] 


>>># 对 于 缺失 的 年 龄 信息 ,我 们 使 用 全 体 乘 客 的 平均 年 龄 代替 ,这 样 可 以 在 保证 顺利 训练 模型 
的 同时 , 尽 可 能 不 影响 预测 任务 。 
>>>X['age'] .fillna X['age'] mean), inplace= True) 


>>> + 对 原始 数据 进行 分 割 ,258 的 乘客 数据 用 于 测试 。 
>>> fran sklearn.cross validation import train test split 
>>>X train, X test, y train, y test-train test split(X, y, test size-0.25, random state- 33) 


>>># 对 类 别 型 特征 进行 转化 ,成 为 特征 向 量 。 

>>> fran sklearn.feature extraction import DictVectorizer 

>>> vec= DictVectorizer (sparse= False) 

>>>X train-vec.fit transfomm(X train.to dict (orient= 'record')) 
>>>X test-vec.transform(X test.to dict (orient= 'record')) 


>>># 使 用 单一 决策 树 进行 模型 训练 以 及 预测 分 析 。 
>>> fram sklearn.tree import DecisionTreeClassifier 
>>> dtc- DecisionTreeClassifier () 

»»»dtc.fit(X train, y train) 

»»»dtc y pred-dtc.predict (X test) 


>>>+ 使 用 随机 森林 分 类 器 进行 集成 模型 的 训练 以 及 预测 分 析 o 
>>> fram skleam.ensenble import RandamForestClassifier 
>>> rfc- RandomEbrestClassifier() 





»»»rfc.fit(X train, y train) 
»»»rfc y pred- rfc.predict (X test) 


>>># 使 用 梯度 提升 决策 树 进行 集成 模型 的 训练 以 及 预测 分 析 。 

>>> from skleam.ensenble import GradientBoostingClassifier 

>>> goc- GradientBoostingClassifier () 

»»»gbc.fit(X train, y train) ; 
>>> qbc_y pred- ghc.predict (X test) E 





* 性 能 测评 : 代码 33 使 用 多 种 用 于 评价 分 类 任务 性 能 的 指标 ,在 测试 数据 集 上 对 比 
单一 决策 树 (Decision Tree) ,随机 森林 分 类 器 (Random Forest Classifier) 以 及 梯 
度 提升 决策 树 (Gradient Tree Boosting) 的 性 能 差异 。 


[tm 33: 集成 模型 对 泰坦 尼克 号 乘客 是 否 生还 的 预测 性 能 


>>># 从 skleam.metrics 导 入 classification report, 
>>> frm skleam.metrics import classification report 


>>>+ 输 出 单一 决策 树 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 DE en d. 
>>> print "The accuracy of decision tree is', dtc.score(X test, y test) 
>>> print classification report(dtc y pred, y test) 


>>>+ 输 出 随机 森林 分 类 器 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 、 召 回 率 、. 刀 指标。 
>>>print "Ihe accuracy of randm forest classifier is', rfc.score(X test, y test) 
»»»print classification report(rfc y pred, y test) 


>>>+ 输 出 梯度 提升 决策 树 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 、 召 回 率 、. 孔 指标 。 
>>> print "The accuracy of gradient tree boosting is', goc.score(X test, y test) 
>>> print classification report (gbc y pred, y test) 


The accuracy of decision tree is 0.781155015198 


precision recall fl- score ‘support 

0 0.91 0.78 0.84 236 
1 0.58 0.80 0.67 B 
329 


avg / total 0.81 0.78 0.79 


Phha 机 器 学 习 及 实践 


‘The accuracy of randm forest classifier is 0.784194528875 
precision recall fl- score 


0 0.92 0.7 0.84 
1 0.57 0.81 0.67 
avg / total 0.82 0.78 0.79 


‘The accuracy of gradient tree boosting is 0.790273556231 
precision recall fl- score 


0 0.92 0.78 0.84 
1 0.58 0.82 0.68 
avg / total 0.83 0.79 0.80 


代码 33 的 输出 表明 : 在 相同 的 训练 和 测试 数据 条 件 下 ,仅仅 使 用 模型 的 默认 配置 ， 
梯度 上 升 决策 树 具 有 最 佳 的 预测 性 能 ,其 次 是 随机 森林 分 类 器 ,最 后 是 单一 决策 树 。 大 量 


在 其 他 数据 上 的 模型 实践 也 证 明了 上 述 结论 的 普 适 性 。 


- 般 而 言 ,工业 界 为 了 追求 更 加 


强劲 的 预测 性 能 ,经 常 使 用 随机 森林 分 类 模型 作为 基线 系统 (Baseline System) 9, 
。 特点 分 析 : 集成 模型 可 以 说 是 实战 应 用 中 最 为 常见 的 。 相 比 于 其 他 单一 的 学 习 
模型 ,集成 模型 可 以 整合 多 种 模型 ,或 者 多 次 就 一 种 类 型 的 模型 进行 建 模 。 由 于 
模型 估计 参数 的 过 程 也 同样 受到 概率 的 影响 ,具有 一 定 的 不 确定 性 ;因此 ,集成 模 
型 虽然 在 训练 过 程 中 要 耗费 更 多 的 时 间 , 但 是 得 到 的 综合 模型 往往 具有 更 高 的 表 


现 性 能 和 更 好 的 稳定 性 。 


2.1.2 回归 预测 


回归 问题 和 分 类 问题 的 区 别 在 于 : 其 待 预测 的 目标 是 连续 变量 ,比如 : 价格 、 降 水 量 
等 等 。 与 “2.1. 1 分 类 学 习 ” 节 的 介绍 方式 不 同 , 这 里 不 会 对 回归 问题 的 应 用 场景 进行 横 
向 扩展 ;而 是 只 针对 一 个 “美国 波士顿 地 区 房价 预测 ”的 经 典 回归 问题 进行 分 析 , 好 让 读者 


朋友 对 各 种 回归 模型 的 性 能 与 优 缺点 有 一 个 深入 的 比较 。 


O 拓展 小 贴 士 19: 读者 朋友 将 会 在 本 书 经 常见 到 基线 系统 的 说 法 ,通常 指 的 是 那些 使 用 经 典 模型 搭建 的 机 器 学 习 系 统 。 研 发 人 员 
每 提出 一 个 新 模型 ,都 需要 和 基线 系统 在 多 个 具有 代表 性 的 数据 集 上 进行 性 能 比较 的 测试 。 随 机 森林 分 类 模型 就 经 常 以 基线 系统 的 身份 


出 现在 科研 论文 ,甚至 公开 的 数据 竞赛 中 。 


2.1.2.1 线性 回归 器 


* 模型 介绍 : 在 “2. 1. 1.1 线性 分 类 器 ” 节 中 ,重点 介绍 了 用 于 分 类 的 线性 模型 。 其 
中 为 了 便于 将 原本 在 实数 域 上 的 计算 结果 映射 到 (0,1) 区 间 , 引 入 了 由 辑 斯 蒂 函 
数 。 而 在 线性 回归 问题 中 ,由 于 预测 目标 直接 是 实数 域 上 的 数值 ,因此 优化 目标 
就 更 为 简单 , 即 最 小 化 预测 结果 与 真实 值 之 间 的 差异 。 
参考 式 (1) , 当 使 用 一 组 m AS FIT UI E RE X. — — x! x eee 二 和 其 对 应 
的 回归 目标 y =< yl yy? yore yy > 时 ,我 们 希望 线性 回归 模型 可 以 最 小 二 乘 (Generalized 
Least Squares) 预 测 的 损失 L(w,5)。 如 此 一 来 ,线性 回归 器 的 常见 优化 目标 如 式 (13) 
所 示 。 





argmin L(w.b)— argmin S (f (Qo x,b)— y*y* (13) 
同样 ,为 了 学 习 到 决定 模型 的 参数 (Parameters) , 即 系数 w 和 截 距 5, 仍然 可 以 使 用 
-种 精确 计算 的 解析 算法 和 一 种 快速 的 随机 梯度 下 降 (Stochastic Gradient Descend) fl 
计算 法 92。 我 们 会 在 编程 实践 中 向 各 位 介绍 如 何 使 用 它们 。 
。 数据 描述 :“ 美 国 波士顿 地 区 房价 预测 ”的 数据 描述 可 以 通过 代码 34 获得 : 


[te 34: 美国 波士顿 地 区 房价 数据 描述 


>>># 从 skleam.datasets 导 人 波士顿 房价 数据 读 取 器 。 
>>> frm sklearn.datasets import load boston 

>>># 从 读 取 房价 数据 存储 在 变量 boston 中 。 

>>> boston= load boston() 

>>># 输 出 数据 描述 。 

>>> print boston.DESCR 

Nurber of Instances: 506 

Nuber of Attributes: 13 numeric/categorical predictive 
Median Value (attribute 14) is usually the target 


Attribute mformation (in order): 
-CM per capita crime rate by town 
-0N proportion of residential land zoned for lots over 25,000 sq.ft. 


D 拓展 小 贴 士 20: 事实 上 ,不 管 是 随机 梯度 上 升 (SGA) 还 是 随机 梯度 下 降 (SGD) ,都 隶属 于 用 梯度 法 迭代 渐进 估计 参数 的 过 程 。 梯 
度 上 升 用 于 目标 最 大 化 ,梯度 下 降 用 于 目标 最 小 化 。 在 线性 回归 中 ,我 们 会 接触 优化 目标 最 小 化 的 方程 。 
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-MS proportion of no retail business acres per town 

-ŒS Carles River dmy variable (1 if tract bands river; 0 otherwise) 
-NX nitric oxides concentration (parts per 10 million) 

-mM average nurber of roams per dwelling 

-AŒ proportion of owner- occupied units built prior to 1940 
-DIS weighted distances to five Boston employment centres 

-RAD index of accessibility to radial highways 

-TX full- value property- tax rate per $ 10,000 

-PIRATIO  pupil- teacher ratio by ton 

-B 1000 (Ek - 0.63)^2 where Bk is the proportion of blacks by town 
-LSIAT % lower status of the population 

-MW Median value of owner- occupied hames in $ 1000's 


Missing Attribute Values: None | 


我 们 节选 了 部 分 有 价值 的 用 于 数据 描述 的 输出 。 总 体 而 言 , 该 数据 共有 506 条 美国 
波士顿 地 区 房价 的 数据 ,每 条 数据 包括 对 指定 房屋 的 13 项 数值 型 特征 描述 和 目标 房价 。 
另外 ,该 数据 中 没有 缺失 的 属性 /特征 值 (Missing Attribute Values) ,更 加 方便 了 后 续 的 
分 析 。 接 下 来 ,“2.1.2 回归 预测 节 所 有 的 模型 都 将 使 用 代码 35 中 分 割 出 的 训练 和 测试 
数据 。 


[ts 35. 美国 波士顿 地 区 房价 数据 分 市 


>>># 从 skleam.cross validation 导入 数据 分 割 器 。 
>>> fran sklearn.cross validation import train test split 


>>># A nmpy 并 重 命名 为 mp. 
>>> import numpy as mp 


>>> X-bostcn.data 
>>> y= boston. target 


>>># 随 机 采样 258 的 数据 构建 测试 样本 ,其余 作为 训练 样本 。 
>>>X train, X test, y train, y test-train test split(X, y, randan state-33, test size-0.25) 


>>># 分 析 回归 目标 值 的 差异 - 


>>> print "Ihe mex target value is", np.max (boston. target) 
>>> print "The min target value is", np.min (postcn.target) 
>>> print "The average target value is", np.mean (boston.target) 


The mex target value is 50.0 
The min target value is 5.0 


The average target value is 22.5328063241 | 





不 过 在 上 述 对 数据 的 初步 查验 中 发 现 ,预测 目标 房价 之 间 的 差异 较 大 ,因此 需要 对 特 
征 以 及 目标 值 进行 标准 化 处 理 了 ,如 代码 36 所 示 。 


[rs 36. 训练 与 测试 数据 标准 化 处 理 


>>># 从 skleam.preprocessing 导 和 人 数据 标 准 化 模块 。 
>>> fran skleam.preprocessing import standardscaler 


>>># 分 别 初始 化 对 特征 和 目标 值 的 标准 化 器 。 
>>> 55 X-Standardscaler () 
>>> 55 y-Standardscaler () 


>>># 分 别 对 训练 和 测试 数据 的 特征 以 及 目标 值 进行 标准 化 处 理 。 

>>>X train-ss X.fit transform(X train) 

>>> X_test=ss_X.transform(X_test) 

>>>y train-ss y.fit transfomn(y train) 

»»»y test-ss y.transfomm(y test) =|] 


。 编程 实践 : 本 节 使 用 最 为 简单 的 线性 回归 模型 LinearRegression 和 SGDRegressor 分 
别 对 波士顿 房价 数据 进行 训练 学 习 以 及 预测 ,如 代码 37 所 示 。 
| 代码 37: 使 用 线性 回归 模型 LinearRegression 和 SGDRegressor 分 别 对 美国 波士顿 
地 区 房价 进行 预测 


>>># 从 skleam.linear model 导 人 LinearRegressicn。 
>>> frm sklearn.linear model import LinearFegression 








第 2 章 EHR ‘or: 


O BRM 21. 也 许 有 读者 朋友 会 质疑 将 真实 房价 也 做 标准 化 处 理 的 做 法 。 事实 上 ,尽管 在 标准 化 之 后 ,数据 有 了 很 大 的 变化 。 
但 是 我 们 依然 可 以 使 用 标准 化 器 中 的 inverse_transform 函数 还 原 真 实 的 结果 ;并 且 ,对 于 预测 的 回归 值 也 可 以 采用 相同 的 做 法 进行 还 原 。 


>>># 使 用 默认 配置 初始 化 线性 回归 器 IinearRegressicn。 
>>> Ir- LinearRegression() 

>>># 使 用 训练 数据 进行 参数 估计 。 

»»»1r.fit(X train, y train) 

>>>+ 对 测试 数据 进行 回归 预测 。 

>>>lr y predict- 1r.predict (X test) 


>>># 从 skleamn.linear model 导 人 SGTRegressor。 

>>> from sklearn.linear model import SGRegressor 

>>>+ 使 用 默认 配置 初始 化 线性 回归 器 Sarregressor, 

>>> sgdr= sciRegressor () 

>>># 使 用 训练 数据 进行 参数 估计 。 

>>>sgdr.fitX train, y train) 

>>># 对 测试 数据 进行 回归 预测 。 H 
»»»syir y predict- sgdr.predict (X test) =| 


* 性 能 测评 : 不 同 于 类 别 预测 ,我 们 不 能 苛求 回归 预测 的 数值 结果 要 严格 地 与 真实 
值 相同 。 一 般 情况 下 ,我 们 希望 衡量 预测 值 与 真实 值 之 间 的 差距 。 因 此 ,可 以 通 
过 多 种 测评 函数 进行 评价 。 其 中 最 为 直观 的 评价 指标 包括 ,平均 绝对 误差 (Mean 
Absolute Error,MAE) 以 及 均 方 误差 (Mean Squared Error, MSE) ,因为 这 也 是 线 
性 回归 模型 所 要 优化 的 目标 。 
假设 测试 数据 共有 m 个 目标 数值 y =< y! y! ny" >, 并 且 记 了 为 回归 模型 的 预 
测 结果 ,那么 具体 计算 MAE 的 步骤 如 式 (14) 与 式 (15) 所 示 。 


$$, = 2) 1y'—5| as) 
i=l 

MAE = S54. (15) 
m 


而 MSE 的 计算 方法 如 式 (16) 和 式 (17) 所 示 。 
SSu = > (= (16) 
A 


SS« 


m 


MSE — (17) 


然而 , 差 值 的 绝对 值 或 者 平方 ,都 会 随 着 不 同 的 预测 问题 而 变化 巨大 ,欠缺 在 不 同 问 


题 中 的 可 比 性 。 因 此 ,我 们 要 考虑 到 测评 指标 需要 具备 某 些 统计 学 含义 。 类 似 于 分 类 问 
题 评价 中 的 准确 性 指标 ,回归 问题 也 有 R-squared 这 样 的 评价 方式 , 既 考量 了 回归 值 与 真 


实 值 的 差异 ,同时 也 兼顾 了 问题 本 身 真实 值 的 变动 。 假 设 f(x’') 代表 回归 模型 根据 特征 
向 量 a 的 预测 值 ,那么 R-squared 具体 的 计算 如 式 (18) 与 式 (19) 所 示 。 


SS, = D OSN as) 


Rz = 1 一 


其 中 SS 代表 测试 数据 真实 值 的 方差 (内 部 差异 ); SS. 代表 回归 值 与 真实 值 之 间 的 平方 
差异 (回归 差异 )。 所 以 在 统计 含义 上 ,R-squared 用 来 衡量 模型 回归 结果 的 波动 可 被 真 
实 值 验 证 的 百分比 ,也 暗示 了 模型 在 数值 回归 方面 的 能 力 。 

下 面 的 代码 不 仅 展示 了 如 何 使 用 Scikit-learn 自 带 的 上 述 三 种 回归 评价 模块 ,同时 还 
介绍 了 调 取 R-squared 评价 函数 的 两 种 方式 。 


ae (19) 





[ 59 38. 使 用 三 种 回归 评价 机 制 以 及 两 种 调用 R-squared 评价 模块 的 方法 ,对 
本 节 模 型 的 回归 性 能 做 出 评价 


>>># 使 用 tinearRegression 模 型 自 带 的 评估 模块 ,并 输出 评估 结果 。 
>>> print "The value of default measurement of LinearRegression is', lr.score(X test, y test) 


>>># 从 skleam metrics KKA r2 score,mean squared error LJ X mean absoluate error 用 于 回归 
性 能 的 评估 。 
>>> frm skleam.metrics import r2 score, mean squared error, mean absolute error 


>>># 使 用 r2_score 模 块 ,并 输出 评估 结果 。 
>>>print "The value of R- squared of LinearRegression is', r2 score(y test, lr y predict) 


>>># 使 用 mean. squared. error 模 块 ,并 输出 评估 结果 。 
>>> print "The mean squared error of LinearRegression is', mean squared error(ss y.inverse transform 
(y test), ss y.inverse transfomm(lr y predict)) 


>>># 使 用 mean absolute error 模 块 ,并 输出 评估 结果 。 
>>>print 'The mean absoluate error of LinearRegressicn is', mean absolute error(ss y.inverse - 
transfomm(y test), ss y.inverse transfomm(lr y predict)) 


The value of default measurement of LinearRegression is 0.6763403831 
‘The value of R- squared of Linearfegression is 0.6763403831 

‘The mean squared error of LinearRegression is 25.0969856921 

‘The mean absoluate error of LinearRegression is 3.5261239964 


>>># 使 用 scrRegressor 模 型 自 带 的 评估 模块 ,并 输出 评估 结果 。 
>>>print "The value of default measurement of SGDRegressor is', sgdr.score(X test, y test) 


>>># 使 用 r2_score 模 块 ,并 输出 评估 结果 。 
>>>print “The value of R- squared of SeTRegressor is', r2 score(y test, sgir y predict) 


>>># 使 用 mean. squared. error 模 块 ,并 输出 评估 结果 。 
>>> print "The mean squared error of SGDRegressor is', mean squared error(ss y.inverse transfom(y . 
test), ss y.inverse transform(sgdr y predict)) 


>>># 使 用 mean. absolute error 模 块 ,并 输出 评估 结果 。 
>>>print "The mean absoluate error of SGDRegressor is', mean absolute error(ss y.inverse transform 
(y test), ss y.inverse transform(sgdr y predict)) 


‘The value of default measurement of SatFegressor is 0.659853975749 
‘The value of R- squared of SSDRegressor is 0.659853975749 

The mean squared error of SciRegressor is 26.3753630607 

‘The mean absoluate error of SGiRegressor is 3.55075990424 


- 


通过 代码 38 的 输出 ,我们 知道 两 种 调用 R-squared 的 方式 是 等 价 的 。 后 续 有 关 回 归 
模型 的 评价 ,我 们 都 会 采用 第 一 种 方式 , 即 回归 模型 白带 的 评估 模块 来 完成 性 能 的 评估 。 
另外 ,也 可 以 看 出 尽管 三 种 评价 方式 R-squared, MSE 以 及 MAE 在 具体 评估 结果 上 不 
同 ,但 是 在 评价 总 体 优 劣 程度 的 趋势 上 是 一 致 的 。 

虽然 ,使 用 随机 梯度 下 降 估计 参数 的 方法 SGDRegressor 在 性 能 表现 上 不 及 使 用 解 
析 方 法 的 LinearRegression; 但 是 如 果 面 对 训练 数据 规模 十 分 庞大 的 任务 ,随机 梯度 法 不 
论 是 在 分 类 还 是 回归 问题 上 都 表现 得 十 分 高 效 ,可 以 在 不 损失 过 多 性 能 的 前 提 下 ,节省 大 
量 计算 时 间 。 请 读者 在 今后 的 使 用 中 .根据 预测 任务 的 数据 规模 ,参考 图 2-8 选择 合适 的 
模型 。 根 据 Scikit-learn 官网 的 建议 ,如 果 数 据 规模 超过 10 万 ,推荐 使 用 随机 梯度 法 估计 







scikit-learn 
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图 2-8 Scikit-learn 工具 包 模 型 使 用 建议 (图 片 来 源 于 http://scikit-learn. org/stable/tutorial/machine 
_learning_map/index. html) ( 见 彩 图 ) 


* 特点 分 析 : 线性 回归 器 是 最 为 简单 . 易 用 的 回归 模型 。 正 是 因为 其 对 特征 与 回归 
目标 之 间 的 线性 假设 ,从 某 种 程度 上 说 也 局 限 了 其 应 用 范围 。 特 别 是 ,现实 生活 
中 的 许多 实例 数据 的 各 个 特征 与 回归 目标 之 间 , 绝 大 多 数 不 能 保证 严格 的 线性 关 
系 。 这 一 点 ,在 “2.1.1.5 决策 树 ” 节 中 想必 已 有 感受 。 尽管 如 此 ,在 不 清楚 特征 
之 间 关 系 的 前 提 下 ,我 们 仍然 可 以 使 用 线性 回归 模型 作为 大 多 数 科学 试验 的 基线 
系统 (Baseline system) 。 


2.1.2.2 支持 向 量 机 (回归 ) 


。 模型 介绍 : 想必 读者 朋友 已 经 对 2. 1. 1. 2 支持 向 量 机 (分 类 ) 中 提 到 的 分 类 模型 
的 作用 机 理 有 所 了 解 。 本 节 介 绍 的 支持 向 量 机 (回归 ?也 同样 是 从 训练 数据 中 选 
取 一 部 分 更 加 有 效 的 支持 向 量 , 只 是 这 少 部 分 的 训练 样本 所 提供 的 并 不 是 类 别 目 
标 , 而 是 具体 的 预测 数值 。 

。 编程 实践 : 继续 使 用 “2. 1. 2. 1 线性 回归 器 中 分 割 处 理 好 的 训练 和 测试 数据 ; 同 


时 在 本 书 中 第 一 次 修改 模型 初始 化 的 默认 配置 ,以 求 在 代码 39 中 展现 不 同 配置 


下 模型 性 能 的 差异 ,也 为 后 续 章 节 要 介绍 的 内 容 做 个 铺垫 。 


[ mi 使 用 三 种 不 同 核 函数 配置 的 支持 向 量 机 回归 模型 进行 训练 ,并 且 分 别 对 


测试 数据 做 出 预测 


>>># 从 skleam.sm 中 导入 支持 向 量 机 (回归 ) 模 型 。 
>>> from sklearn.svm import SVR 


>>># 使 用 线性 核 函 数 配 置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 
>>> linear svr= SVR(kernel- 'linear') 

>>> linear svr.fit(X train, y train) 

>>> linear svr y predict- linear svr.predict (X test) 


>>>+ 使 用 多 项 式 核 函数 配置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 


>>> poly_svr= SVR (kemel= 'poly') 
»»»poly svr.fit(X train, y train) 
»»»poly svr y predict-poly svr.predict(X test) 


>>># 使 用 径 向 基 核 函数 配置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 


2»»rbf svr-SVR(kemel- 'rbf') 
>>> Ibf_ svr.fit(X train, y train) 
»»»rbf svr y predict-rbf svr.predict (X test) 


— 


* 性 能 测评 : 接 下 来 将 继续 在 代码 40 中 ,就 不 同 核 函 数 配 置 下 的 支持 向 量 机 回归 模 
型 在 测试 集 上 的 回归 性 能 做 出 评估 。 通 过 三 组 性 能 测评 我 们 发 现 ,不 同 配置 下 的 
模型 在 相同 测试 集 上 ,存在 着 非常 大 的 性 能 差异 。 并 且 在 使 用 了 径 向 基 (Radial 
basis function) 核 函数 对 特征 进行 非 线 性 映射 之 后 ,支持 向 量 机 展现 了 最 佳 的 回 


归 性 能 。 


[ts 40; 对 三 种 核 函 数 配 置 下 的 支持 向 量 机 回归 模型 在 相同 测试 集 上 进行 性 能 


评估 


>>># 使 用 R- squared, MSE 和 ME 指标 对 三 种 配置 的 支持 向 量 机 (回归 ) 模 型 在 相同 测试 集 上 进行 


性 能 评估 。 
>>> frm skleam.metrics import r2 score, mean absolute error, mean squared error 


»»»print 'R- squared value of linear SWR is', linear svr.score(X test, y test) 
»»»print “The mean squared error of linear SVR is', mean squared error(ss y.inverse transfom(y 
test), ss y.inverse transform(linear svr y predict)) 

>>> print "Ihe mean absoluate error of linear SVR is', mean absolute error(ss y.inverse transform(y_ 
test), ss y.inverse transform(linear svr y predict)) 

R- squared value of linear SVR is 0.65171709743 

The mean squared error of linear SVR is 26.6433462972 

The mean absoluate error of linear SVR is 3.53398125112 


»»»print 'R- squared value of Poly SVR is', poly svr.score(X test, y test) 

»»»print 'The mean squared error of Poly SVR is', mean squared error(ss y.inverse transform(y 
test), ss y.inverse transform(poly svr y predict)) 

»»»print "The mean absoluate error of Poly SVR is', mean absolute error(ss y.inverse transform(y 
test), ss y.inverse transfomm(poly svr y predict)) 

R- squared value of Poly SVR is 0.404454058003 

The mean squared error of Poly SVR is 46.179403314 

‘The mean absoluate error of Poly SVR is 3.75205926674 


>>> print 'R- squared value of FBF SVR is', rbf svr.score(X test, y test) 

»»»print "The mean squared error of FBF SVR is', mean squared error(ss_y.inverse transform(y test), 
Ss y.inverse transform(rbf svr y predict)) 

»»»print "The mean absolute of FEF SWR is', mean absolute error(ss y.inverse transform(y - 
test), ss y.inverse transform(rbf svr y predict)) 

R- squared value of RBF SVR is 0.756406891227 

‘The mean squared error of RBF SVR is 18.8885250008 

‘The mean absoluate error of RBF SVR is 2.607563297198 J 


。 特点 分 析 : 本 节 首 次 向 读者 展示 了 不 同 配置 模型 在 相同 数据 上 所 表现 的 性 能 差 
异 。 特 别 是 除了 2. 1. 1. 2 节 支 持 向 量 机 (分 类 ) 模 型 里 曾经 提 到 过 的 特点 之 外 ,该 
系列 模型 还 可 以 通过 配置 不 同 的 核 函 数 ? 来 改变 模型 性 能 。 因 此 ,建议 读者 在 使 
用 时 多 尝试 几 种 配置 ,进而 获得 更 好 的 预测 性 能 。 


O ”拓展 小 贴 士 22: 核 函数 是 一 项 非常 有 用 的 特征 映射 技巧 ,同时 在 数学 描述 上 也 略为 复杂 。 因 此 本 书 不 做 过 度 引申 。 简 单一 些 理 
解 , 便 是 通过 某 种 函数 计算 ,将 原 有 的 特征 映射 到 更 高 维度 的 空间 ,从 而 尽 可 能 达到 新 的 高 维度 特征 线性 可 分 的 程度 ,如 图 2-9 所 示 。 结 合 
支持 向 量 机 的 特点 ,这 种 高 维度 线性 可 分 的 数据 特征 恰好 可 以 发 挥 其 模型 优势 - 








Input Space Feature Space 
图 2-9 利用 核 函数 $ 将 线性 不 可 分 的 低 维 输入 ,映射 到 高 维 可 分 的 
新 特征 空间 ,图 片 摘自 于 互联 网 了 ( 见 彩 图 ) 


2.1.2.3 K 近邻 (回归 ) 


。 模型 介绍 : 在 2.1.1.4 天 近邻 (分 类 ) 中 提 到 了 这 类 模型 不 需要 训练 参数 的 特点 。 
在 回归 任务 中 ,K 近邻 (回归 ) 模 型 同样 只 是 借助 周围 K 个 最 近 训 练 样本 的 目标 
数值 ,对 待 测 样本 的 回归 值 进 行 决策 。 自 然 , 也 衍生 出 衡量 待 测 样本 回归 值 的 不 
同方 式 , 即 到 底 是 对 K 个 近邻 目标 数值 使 用 普通 的 算术 平均 算法 ,还 是 同时 考虑 
距离 的 差异 进行 加 权 平均 。 因 此 ,本 节 也 初始 化 不 同 配置 的 天 近邻 (回归 ) 模 型 
来 比较 回归 性 能 的 差异 。 

。 编程 实践 : 代码 41 展示 了 如 何 使 用 两 种 不 同 配置 的 K 近邻 回归 模型 对 美国 波 士 
顿 房价 数据 进行 回归 预测 。 


三 代码 41: 使 用 两 种 不 同 配置 的 K 近邻 回归 村 型 对 美国 波士顿 房价 数据 进行 
回归 预测 


>>># 从 skleam.neighbors $ À FNeighborRegressor(K 近 邻 回 归 器 ) 。 
>>> fram skleam.neighbors import KNeighborsRegressor 


>>>+ 初 始 化 K 近 邻 回归 器 ,并 且 调 整 配置 ,使 得 预测 的 方式 为 平均 回归 : wits "unifom'. 
>>> uni_knr= KNeighborsRegressor (weights- 'uniform') 

»»»uni knr.fit(X train, y train) 

>>> uni_knr_y predict-uni knr.predict(X test) 


>>> I i fe K UE AB EI A 38 2E EL IHE BO E, 800 (00 77 5 O8 AR HB AL ALJ: weights= | 
'distance', 
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>>>dis knr-KNeiglborsRegressor (weights- 'distance") 
>>>dis knr.fit(X train, y train) 
>>>dis knr y predict-dis knr.predict(X test) | 


。 性 能 测评 : 接 下 来 我 们 将 继续 使 用 代码 42 ,就 不 同 回归 预测 配置 下 的 K 近邻 模 
型 进行 性 能 评估 。 其 输出 表明 : 相 比 之 下 ,采用 加 权 平均 的 方式 回归 房价 具有 更 
好 的 预测 性 能 。 


[ 代码 42; 对 两 种 不 同 配置 的 K 近邻 回归 模型 在 美国 波士顿 房价 数据 上 进行 预测 
性 能 的 评估 

>>># 使 用 R- sqnared.MEE 以 及 ME 三 种 指标 对 平均 回归 配置 的 K 近 邻 模型 在 测试 集 上 进行 性 能 评 
估 。 

>>> print 'R- squared value of uniform- weighted KNeighorRegression:', uni knr.score(X test, y test) 
22» print "Ihe mean squared error of uniform- weighted KNeighorRegression:', mean squared error (ss_ 
y.inverse transfomm(y test), ss y.inverse transform(uni knr y predict)) 

>>> print "Ihe mean absoluate error of uniform weighted KNeighorRegression', mean absolute error (ss 
.y-inverse transfomm(y test), ss y.inverse transform(uni knr y predict)) 


R- squared value of uni form- weighted KNeighorRegression: 0.690345456461 
‘The mean squared error of uniform- weighted KNeighorRegression: 24.0110141732 
‘The mean absoluate error of uni form- weighted KNeighorRegression 2.96803149606 


>>># 使 用 R- squared, ME 以 及 Ma = f dE PR PAA FE T AL FLY HE 48 BUS TE HE 
行 性 能 评估 。 

>>> print 'R- squared value of distance- weighted KNeighorFegression:', dis knr.score(X test, y test) 
>>> print "Ihe mean squared error of distance- weighted KNeighorRegression:', mean squared error (ss_ 
y-inverse_transform(y test), ss y.inverse transformm(dis knr y predict)) 

>>> print "The mean absoluate error of distance- weighted KNeighorRegression:', mean absolute error 
(ss y.inverse transform(y test), ss y.inverse transform(dis knr y predict)) 


R- squared value of distance- weighted KNeighorRegression: 0.719758997016 
‘The mean squared error of distance- weighted KNeighorfegressicn: 21.7302501609 H 
‘The mean absoluate error of distance- weighted KNeighorRegression: 2.80505687851 | 





* 特点 分 析 : K 近邻 (回归 ) 与 K 近邻 (分 类 ) 一 样 , 均 属于 无 参数 模型 (Nonparametric 
model) ,同样 没有 没有 参数 训练 过 程 。 但 是 由 于 其 模型 的 计算 方法 非常 直观 , 因 
此 深 受 广大 初学 者 的 喜爱 。 本 节 讨论 了 两 种 根据 数据 样本 的 相似 程度 预测 回归 
值 的 方法 ,并 且 验 证 采用 K 近邻 加 权 平均 的 回归 策略 可 以 获得 较 高 的 模型 性 能 ， 
供 读者 参考 。 


2.1.2.4 回归 树 


模型 介绍 : 回归 树 在 选择 不 同 特征 作为 分 裂 节点 的 策略 上 ,与 2. 1. 1. 5 决策 树 的 
思路 类 似 。 不 同 之 处 在 于 ,回归 树叶 节点 的 数据 类 型 不 是 离散 型 ,而 是 连续 型 。 
决策 树 每 个 叶 节点 依照 训练 数据 表现 的 概率 倾向 决定 了 其 最 终 的 预测 类 别 ;而 回 
归 树 的 叶 节 点 却 是 一 个 个 具体 的 值 ,从 预测 值 连续 这 个 意义 上 严格 地 讲 , 回 归 树 
不 能 称 为 “回归 算法 ”。 因 为 回归 树 的 叶 节点 返回 的 是 “一 团 ? 训 练 数 据 的 均值 ,而 
不 是 具体 的 .连续 的 预测 值 。 

编程 实践 : 在 本 节 使 用 Scikirlearn 中 的 DecisionTreeRegressor 对 “美国 波士顿 
房价 ”数据 进行 回归 预测 ,如 代码 43 所 示 。 


[ts 43: 使 用 回归 树 对 美国 波士顿 房价 训练 数据 进行 学 习 .并 对 测试 数据 进行 预测 


>>># 从 skleam.tree 中 导入 DacisionfrecRegressor, 

>>> fram skleam.tree import DecisionTreeRegressor 

>>># 使 用 默认 配置 初始 化 DecisicriTreenegressor, 

>>> dtr- DecisionTreeRegressor () 

>>># 用 波士顿 房价 的 训练 数据 构建 回归 树 。 

2»»dtr.fit(X train, y train) 

>>># 使 用 默认 配置 的 单一 回归 树 对 测试 数据 进行 预测 ,并 将 预测 值 存储 在 变量 dtr_y_ 
predict H, 

>>>dtr y predict- dtr.predict(X test) _| 


* 性 能 测评 : 然后 在 代码 44 中 .对 默认 配置 的 回归 树 在 测试 集 上 的 性 能 做 出 评估 。 
并 且 , 该 代码 的 输出 结果 优 于 2. 1. 2. 1 线性 回归 器 一 节 LinearRegression 与 
SGDRegressor 的 性 能 表现 。 因 此 ,可 以 初步 判断 ,美国 波士顿 房价 预测 ”问题 的 


特征 与 目标 值 之 间 存在 一 定 的 非 线性 关系 。 


| 代码 44: 对 单一 回归 树 模型 在 美国 波士顿 房价 测试 数据 上 的 预测 性 能 进行 评估 


>>># 使 用 R- squared, MSE 以 及 ME 指标 对 默认 配置 的 回归 树 在 测试 集 上 进行 性 能 评估 。 

>>>print 'R- squared value of DecisionTreeRegressor:', dtr.score(X test, y test) 

>>> print 'The mean squared error of DecisiorTreeRegressor:', mean squared error(ss y.inverse - 
transfomm(y test), ss y.inverse transform(dtr y predict)) 

>>> print "Ihe mean absoluate error of DecisionTreeRegressor:', mean absolute error(ss y.inverse 
transfomm(y test), ss y.inverse transfomm(dtr y predict)) 

Re squared value of DecisionTreeRegressor: 0.694084261863 

‘The mean squared error of DacisiorfreeRegressor: 23.7211023622 

‘The mean absoluate error of DecisicrTreeRegressor: 3.14173228346 J 


。 特点 分 析 : 在 系统 地 介绍 了 决策 (分 类 ) 树 与 回归 树 之 后 ,可 以 总 结 这 类 树 模型 的 
优点 : 四 树 模型 可 以 解决 非 线性 特征 的 问题 ; 加 树 模型 不 要 求 对 特征 标准 化 和 统 
-量化 , 即 数值 型 和 类 别 型 特征 都 可 以 直接 被 应 用 在 树 模型 的 构建 和 预测 过 程 
中 ; 图 因为 上 述 原因 , 树 模型 也 可 以 直观 地 输出 决策 过 程 ,使 得 预测 结果 具有 可 
解释 性 。 
同时 , 树 模型 也 有 一 些 显著 的 缺陷 : @ 正 是 因为 树 模型 可 以 解决 复杂 的 非 线 
性 拟 合 问题 ,所 以 更 加 容易 因为 模型 搭建 过 于 复杂 而 形 失 对 新 数据 预测 的 精度 
( 泛 化 力 ); 加 树 模型 从 上 至 下 的 预测 流程 会 因为 数据 细微 的 更 改 而 发 生 较 大 的 
结构 变化 ,因此 预测 稳定 性 较 差 ; 加 依托 训练 数据 构建 最 佳 的 树 模型 是 NP 难 问 
题 , 即 在 有 限时 间 内 无 法 找到 最 优 解 的 问题 ,因此 我 们 所 使 用 类 似 贪 禁 算法 的 解 
法 只 能 找到 一 些 次 优 解 , 这 也 是 为 什么 我 们 经 常 借助 集成 模型 ,在 多 个 次 优 解 中 
寻觅 更 高 的 模型 性 能 。 


2.1.2.5 集成 模型 (回归 ) 


。 模型 介绍 : 在 “2. 1. 1.6 集成 模型 (分 类 )" 节 中 ,曾经 探讨 过 集成 模型 的 大 致 类 型 
和 优势 。 这 一 节 除 了 继续 使 用 普通 随机 森林 和 提升 树 模型 的 回归 器 版 本 之 外 ,还 
要 补充 介绍 随机 森林 模型 的 另 一 个 变种 : 极端 随机 森林 (Extremely Randomized 
Trees) 。 与 普通 的 随机 森林 (Random Forests) 模 型 不 同 的 是 ,极端 随机 森林 在 每 
当 构 建 一 棵 树 的 分 裂 节点 Cnode) 的 时 候 ,不 会 任意 地 选取 特征 ;而 是 先 随机 收集 

PBS ERIE SA J Fl A fi ili Information Gain) 和 基尼 不 纯 性 (Gini Impurity) 等 
指标 挑选 最 佳 的 节点 特征 。 
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。 编程 实践 : 本 节 将 使 用 Scikirlearn 中 三 种 集成 回归 模型 , 即 RandomForestRegressor、 
ExtraTreesRegressor 以 及 GradientBoostingRegressor 对 “美国 波士顿 房价 ”数据 
进行 回归 预测 ,如 代码 45 所 示 。 


[ 代码 45; 使 用 三 种 集成 回归 模型 对 美国 波士顿 房价 训练 数据 进行 学 习 ,并 对 测试 
数据 进行 预测 


> > > # 从 skleam. ensemble 中 导 人 FandomgorestRegressor、 ExtraTreesaressor 以 及 
GradientBoostingRegressor。 
>>> fram sklearn.enserble import RandomForestRegressor, ExtraTreesRegressor, 

8 S 


>>># 使 用 RandmForestRegressor 训练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 rfr y 
Eredict 中 。 

>>> rfr- RandmForestRegressor () 

>>> rfr.fit(X train, y train) 

>>> rfr_y predict- rfr.predict (X test) 


>>> + 使 用 ExtraTreesRegressor 训练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 str y — 
predict 中 。 

>>> etr- ExtraTreesRegressor () 

>>>etr.fit & train, y train) 

»»»etr y predict- etr.predict(X test) 


>>># 使 用 Gradientpoostingaegressor 训练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 gor y - 
predict 中。 

>>> dor- GradientBoostingRegressor () 

>>> gor.fit(X train, y train) 

»»»gor y predict- gor.predict ( test) E 


- 性 能 测评 , 同时 ,还 可 以 使 用 代码 46 对 上 述 三 种 集成 回归 模型 在 波士顿 房价 * 数 
据 的 预测 能 力 进 行 评估 ,比较 它们 性 能 上 的 差异 。 
[RB 46, 对 三 种 集成 回归 模型 在 美国 波士顿 房价 测试 数据 上 的 回归 预测 性 能 
: 进行 评估 
>>> FEJ P- spared, vE 以 及 MBE 指标 对 默认 配置 的 随 宙 回 归 森 林 在 测试 集 上 进行 性 能 评 全 。 


>>>print 'R- squared value of RandatWorestRegressor:', rfr.score(X test, y test) 
>>> print 'The mean squared error of RandamForestRegressor:', mean squared error(ss y.inverse 
transform(y test), ss y.inverse transform(rfr y predict)) 
»»» print "The mean absoluate error of RandamForestRegressor:', mean absolute error(ss y.inverse - 
transfom(y test), ss y.inverse transform(rfr_y predict)) 


F- squared value of RandonForestRegressar: 0.802399786277 
‘The mean squared error of FandanForestRegressor: 15.322176378 
‘The mean absoluate error of RandomforestRegressor: 2.37417322835 


>>># 使 用 R- squared, ME 以 及 ME 指标 对 默认 配置 的 极端 回归 森林 在 测试 集 上 进行 性 能 评估 。 
>>> print 'R- squared value of ExtraTreesRegessor:', etr.score(X test, y test) 

>>> print 'The mean squared error of  ExtraTreesRegessor:', mean squared error(ss y.inverse - 
transform(y test), ss y.inverse transfomm(etr y predict)) 

>>> print 'The mean absoluate error of ExtraTreesRegessor: ', mean absolute error(ss y.inverse - 
transform(y test), ss y.inverse transfomm(etr y predict)) 


>>># 利 用 训练 好 的 极端 回归 森林 模型 ,输出 每 种 特征 对 预测 目标 的 贡献 度 。 
>>> print rp.sort (zip(etr.festure importances , boston.feature names), axis=0) 


R- squared value of ExtraTreesRegessor: 0.81953245067 
‘The mean Squared error of ExtraTreesRegessor: 13.9936874016 
‘The mean absoluate error of ExtraTreesRegessor: 2.35881889764 


[["0.00197153649824" 'AGE'] 
['0.01212657983]5' 'B'] 
['0.0166147338152' 'CHAS'] 
['0.0181685042979' 'CRIM'] 
['0.0216752406979' 'DIS'] 
['0.0230936940337' "INDUS'] 
["0.0244030043403" 'LSTAT'] 
['0.0281224515813' 'NCK'] 
['0.0315825286843' 'PIRATIO'] 
['0.0455441477115' 'RAD'] 
['0.0509648681724' 'FM'] 
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['0.355492216395' "TAX'] 
[*0.370240493935' 'ZN']] 


>>># 使 用 R- squared, MSE 以 及 ME 指标 对 默认 配置 的 梯度 提升 回归 树 在 测试 集 上 进行 性 能 评估 。 : 
>>> print 'R- squared value of GradientBoostingRegressor:', gor.score(X test, y test) : 
>>>print “The mean squared error of GradientBoostingRegressor:', mean squared error(ss y.inverse | 
transfomm(y test), ss y.inverse transform(gor y predict)) B 
>>> print “The mean absoluate error of GradientBoostingRegressor:', mean absolute error(ss y.inverse : 
_transfom(y test), ss y.inverse transfomm(gor y predict)) 


F- squared value of GradientBoostingRegressor: 0.842602871434 
‘The mean squared error of GradientBoostingRegressor: 12.2047771094 
‘The mean absoluate error of GradientBoostingRegressor: 2.28597618665 


。 特点 分 析 : 许多 在 业界 从 事 商业 分 析 系 统 开 发 和 搭建 的 工作 者 更 加 青睐 集成 模 
型 ,并 且 经 常 以 这 些 模型 的 性 能 表现 为 基准 ,与 新 设计 的 其 他 模型 性 能 进行 比 对 。 
虽然 这 些 集成 模型 在 训练 过 程 中 要 耗费 更 多 的 时 间 , 但 是 往往 可 以 提供 更 高 的 表 
现 性 能 和 更 好 的 稳定 性 。 
若是 对 我 们 在 “2. 1. 2 回归 预测 ” 节 所 有 介绍 过 的 模型 在 “美国 波士顿 房价 预测 ”问题 
上 的 性 能 进行 排序 比较 ,也 可 以 发 现 使 用 非 线性 回归 树 模型 ,特别 是 集成 模型 ,能 够 取得 
更 高 的 性 能 表现 ,如 表 2-1 所 示 。 
R21 多 种 经 典 回归 模型 在 “美国 波士顿 房价 预测 ”问题 的 回归 预测 能 力 排名 























Rank Regressors R-squared MSE | MAE 
1 GradientBoostingRegressor 0. 8426 12.20 | 2.29 
2 | ExtraTreesRegressor 0. 8195 13.99 | 2.36 
3 RandomForestRegressor 0. 8024 15.32 | 2.37 
4 SVM Regressor(RBF Kernel) 0.7564 18.89 | 2.61 
5 | KNN Regressor (Distance-weighted) 0. 7198 2.73 | 2.81 
6 — | DecisionTreeRegressor 0.6941 23.72 | 3.14 
7 KNN Regressor (Uniform-weighted) 0. 6903 24.00 | 2.97 
































ek 
Rank Regressors R-squared MSE MAE 
8 LinearRegression 0. 6763 25.10 3.53 
9 SGDRegressor 0. 6599 26. 38 3.55 
10 SVM Regressor (Linear Kernel) 0. 6517 27.76 3.57 
11 SVM Regressor (Poly Kernel) 0. 4045 46.18 3.75 

















n 22 无 监督 学 习 经 典 模型 


无 监督 学 习 (Unsupervised Learning) 着 重 于 发 现 数据 本 身 的 分 布 特点 。 与 监督 学 习 
(Supervised Learning) ^ [ri] ,无 监督 学 习 不 需要 对 数据 进行 标记 。 这 样 , 在 节省 大 量 人 工 
的 同时 ,也 让 可 以 利用 的 数据 规模 变 得 不 可 限量 。 

从 功能 角度 讲 , 无 监督 学 习 模型 可 以 帮助 我 们 发 现 数据 的 “群落 "(2. 2. 1 数据 聚 类 )， 
同时 也 可 以 寻找 * 离 群 的 样本 ;另外 ,对 于 特征 维度 非常 高 的 数据 样本 ,我 们 同样 可 以 通 
过 无 监督 的 学 习 对 数据 进行 降 维 (2. 2. 2 特征 降 维 ) ,保留 最 具有 区 分 性 的 低 维度 特征 。 
这 些 都 是 在 海量 数据 处 理 中 是 非常 实用 的 技术 。 


2.2.1 数据 聚 类 


数据 聚 类 是 无 监督 学 习 的 主流 应 用 之 一 。 最 为 经 典 并 且 易 用 的 聚 类 模型 , 当 属 K 均 
值 (K-means) 算 法 。 该 算法 要 求 我 们 预先 设 定 聚 类 的 个 数 . 然 后 不 断 更 新 聚 类 中 心 ; 经 过 
几 轮 这 样 的 迭代 ,最 后 的 目标 就 是 要 让 所 有 数据 点 到 其 所 属 聚 类 中 心 距离 的 平方 和 趋 于 
稳定 。 


2.2.1.1 K 均值 算法 


。 模型 介绍 : 这 是 在 数据 聚 类 中 是 最 经 典 的 ,也 是 相对 容易 理解 的 模型 。 算 法 执行 
的 过 程 分 为 4 个 阶段 ,如 图 2-10 所 示 : @ 首 先 ,随机 布设 K 个 特征 空间 内 的 点 作 
为 初始 的 聚 类 中 心 ; 四 然后 ,对 于 根据 每 个 数据 的 特征 向 量 , 从 K 个 聚 类 中 心中 
寻找 距离 最 近 的 一 个 ,并 且 把 该 数据 标记 为 从 属于 这 个 聚 类 中 心 ; 加 接着 ,在 所 
有 的 数据 都 被 标记 过 聚 类 中 心 之 后 ,根据 这 些 数据 新 分 配 的 类 簇 , 重 新 对 AR 
类 中 心 做 计算 ; @ 如 果 一 轮 下 来 ,所 有 的 数据 点 从 属 的 聚 类 中 心 与 上 一 次 的 分 配 
的 类 簇 没有 变化 ,那么 迭代 可 以 停止 ;否则 回 到 步骤 @ 继 续 循 环 。 
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图 2-10 K-means 算法 迭代 过 程 示例 ,图 片 摘自 于 互联 网 了 ( 见 彩 图 ) 


。 数据 描述 :“2. 1. 1. 2 支持 向 量 机 (分 类 )" 节 曾经 使 用 了 手写 体 数 字 图 像 数据 。 只 
是 ,Scikit-learn 内 部 集成 的 仅仅 是 原 数 据 集合 的 一 部 分 。 在 本 节 , 我 们 将 使 用 这 
份 手写 体 数字 图 像 数 据 的 完整 版 本 。 读 者 可 以 通过 下 面 这 个 链接 访问 该 数据 集 : 
https://archive. ics. uci. edu/ml/machine-learning-databases/optdigits/ 。 我 们 节 


选 了 部 分 有 价值 的 数据 描述 ,并 展示 如 下 : 


1. Title of Database: Optical Recognition of Handwritten Digits 
5. Nuber of Instances 

optdigits.tra ^ Training 3823 

optdigits.tes ^ Testing 1797 


The way we used the dataset was to use half of training for 
actual training, me- fourth for validation and one- fourth 
for writer- dependent testing. The test set was used for 
writer- independent testing and is the actual quality measure. 


Q https: //sites. google. com/site/myecodriving/k-means-ju-lei-fen-xi 





6. Nuber of Attributes 
64 input* 1class attribute 


7. For Each Attribute: 
ALl input attributes are integers in the range 0..16. 
The last attribute is the class code 0..9 


8. Missing Attribute Values 


由 上 面 的 数据 描述 ,我们 可 以 知道 完整 的 手写 体 数字 图 像 分 为 两 个 数据 集合 。 其 中 
训练 数据 样本 3823 条 ,测试 数据 1797 条 ;图 像 数据 通过 8X8 的 像素 矩阵 表示 ,共有 64 
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个 像素 维度 ;1 个 目标 维度 用 来 标记 每 个 图 像样 本 代表 的 数字 类 别 。 该 数据 没有 缺失 的 
特征 值 ,并且 不 论 是 训练 还 是 测试 样本 ,在 数字 类 别 方面 都 采样 得 非常 平均 ,是 一 份 非常 
规整 的 数据 集 。 
。 编程 实践 : 下 面 就 通过 代码 47 对 这 份 数 据 的 图 像 特 征 进行 K-means 聚 类 示例 。 


[ ka 47: K-means 算法 在 手写 体 数字 图 像 数据 上 的 使 用 示例 


>>># 分 别 导 人 numpy, matplotlib VI J pandas, 用 于 数学 运算 、 作 图 以 及 数据 分 析 。 
>>> import numpy as mp 

>>> import matplotlib.pyplot as plt 

>>> import pandas as pd 


>>># 使 用 pandas 分 别 读 取 训练 数据 与 测试 数据 集 。 


>>> digits train- pd.read csv ('https://archive. ics. uci. edu/ml/machine - leaming- databases/ 


cptdigits/optdigits.tra', header- None) 


>>> digits test- pd.read csv ("https://archive. ics. uci. edu/ml/machine - learning - databases/: 


cptdigits/optdigits.tes', header- None) 


>>># 从 训练 与 测试 数据 集 上 都 分 离 出 4 维度 的 像素 特征 与 1 维度 的 数字 目标 。 
>>>X train-digits train[np.arange (64) ] 
>>>y train-digits train[64] 


>>>X test-digits test [np.arange (64) ] 
»»»y test-digits test[64] 


>>># 从 skleam.cluster 中 导入 Reans 模 型 。 
>>> fram skleam.cluster import KMeans 


>>># 初 始 化 Reans 模 型 ,并 设置 聚 类 中 心 数量 为 10. 
>>> kmeans- FMeans (n clusters- 10) 

>>> kreans.fit(X train) 

>>># 逐 条 判断 每 个 测试 图 像 所 属 的 聚 类 中 心 。 
>>>Y pred means.Predict X test) 


=| 


。 性 能 测评 : 也 许 有 些 读 者 会 困惑 于 如 何 评估 聚 类 算法 的 性 能 ,特别 是 应 用 在 没有 
标注 类 别 的 数据 集 上 的 时 候 。 针 对 不 同 的 数据 特点 ,这 里 作者 提供 两 种 方式 。 


CD. 如 果 被 用 来 评估 的 数据 本 身 带 有 正确 的 类 别 信 息 , 那 么 就 如 代码 48 


- 样 使 用 


Adjusted Rand Index (ARI)。ARI 指标 与 分 类 问题 中 计算 准确 性 (Accuracy) 的 方法 类 


似 , 同 时 也 兼顾 到 了 类 簇 无 法 和 分 类 标记 一 一 对 应 的 问题 。 


| 代码 48: 使 用 ARI 进行 K-means 聚 类 性 能 评估 


>>># 从 skleam 导 入 度量 函数 库 metrics. 
>>> fran skleam import metrics 
>>># 使 用 ART VEG] Reans 聚 类 性 能 评估 。 


0.665144851397 


»»»print metrics.adjusted rand score(y test, y pred) | 


(2) 如 果 被 用 于 评估 的 数据 没有 所 属 类 别 ,那么 我 们 习惯 使 用 轮廓 系数 (Silhouette 
Coefficient) 来 度量 聚 类 结果 的 质量 。 轮 廓 系数 同时 兼顾 了 聚 类 的 凝聚 度 (Cohesion) 和 分 
离 度 (Separation) ,用 于 评估 聚 类 的 效果 并 且 取 值 范围 为 [一 1, 1]。 轮 廊 系 数值 越 大 , 表 
示 聚 类 效果 越 好 。 具 体 的 计算 步骤 如 下 : 对 于 已 聚 类 数据 中 第 i 个 样本 zx', 计算 x 与 
其 同一 个 类 簇 内 的 所 有 其 他 样本 距离 的 平均 值 , 记 作 a! HA t fe ft VI BE IE 
(Cohesion); OWI ^ 外 的 一 个 簇 5, 计算 a! BE b 中 所 有 样本 的 平均 距离 ,遍历 所 有 其 
他 禾 , 找 到 最 近 的 这 个 平均 距离 , 记 作 刀 ,用 于 量化 簇 之 间 分 离 度 (Separation) ; OX FH 
本 x, 轮廓 系数 为 sc! 一 PAUL 图 最 后 对 所 有 样本 X 求 出 平均 值 即 为 当前 聚 类 结 
果 的 整体 轮廓 系数 。 由 轮廓 系数 的 计算 公式 ,不 难 发 现 : WME sc! 小 于 0, 说明 zi 与 其 能 
内 元 素 的 平均 距离 大 于 最 近 的 其 他 入 ,表示 聚 类 效果 不 好 ;如 果 a 趋 于 0, 或 者 矿 足 够 大 ， 
那么 sc 趋 近 与 1 ,说 明 聚 类 效果 比较 好 。 为 了 进一步 形象 地 说 明 轮廓 系数 与 聚 类 效果 的 
关系 ,使 用 代码 49 对 一 组 简单 的 数据 进行 分 析 。 


[ 代码 49: FAS REGRA A [o] AABN K-means 聚 类 实例 


>>># 导 人 mumpy。 

>>> import numpy as np 

>>># 从 skleam.cluster rf FA RMeans 算 法 包 。 

>>> frm sklearn.cluster import KMeans 

>>># 从 skleam.metrics $A silhouette score 用 于 计算 轮廓 系数 。 
>>> fran skleam.metrics import silhouette score 

>>> import matplotlib.pyplot as plt 


>>># 分 割 出 3* =6T FE ,并 在 1 号 子 图 作 图 。 
>>> plt.subplot (3,2,1) 





>>>+ 初 始 化 原始 数据 点 。 

22» xI- rp.array ([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 9) 
»»»12- np.array (I1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3]) 
>>> X-rp.array (zip xl, x2)) .reshape (len (x1) , 2) 


>>># 在 1 号 子 图 做 出 原始 数据 点 阵 的 分 布 。 
»»»pit.xlim([0, 10]) 

>>>plt.ylim((0, 10]) 
>>>plt.title("Instances") 
>>>plt.scatter (xl, x2) 


>>> colors= ['b', 'g', 'r', 'c', "n', 'y', 'k', "b'] 
»»»markers- [ov 's', 'D', 'v', ov tpt, x ty 4 n] 


>>> clusters= [2, 3, 4, 5, 8] 

>>> subplot_counter= 1 

>>> sc_scores= [] 

>>> for t in clusters: 

>>> ‘subplot_counter + =1 

>>> plt.subplot (3, 2, subplot counter) 

>>> kmeans model-KMeans (n clusters- t) .fit (X) 


>>> fori, 1 in enumerate (kmeans model.labels ): 
>>> plt.plot (x1 [i], x2[i], colormcolors[1], marker=markers[1], 1s- 'None') 


>>> plt.xlim([0, 10]) 

>>> plt.ylim([0, 10]) 

>>> s sor=silhuette score(X, kmeans model.labels , metric- 'euclidean') 
>>> Sc scores.append(sc score) 


>>> til FEE BS 7 [a] 2I B C 09 PEDE A. 
>>> pit.title("'K- $ s, silhouette coefficient-& 0.03f' % (t, sc score) 


>>># 绘 制 轮廓 系数 与 不 同类 簇 数量 的 关系 曲线 。 
>>> plt.figure() 





>>>plt.plot (clusters, sc scores, ' 
>>> plt.xlabel ("Number of Clusters!) 
>>> pilt.ylabel (‘Silhouette Coefficient Soore') 


>>> plt.show() | 
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图 2-11 RI FE SE B RESCUE UE A E] 2 SE SLE RT. K-means 聚 类 结果 示例 ( 见 彩 图 ) 


从 代码 49 所 输出 的 图 2-12 ,我 们 得 知 当 聚 类 中 心 数量 为 3 的 时 候 , 轮 廓 系数 最 大 ;此 
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图 2-12 轮廓 系 数 与 不 同类 入 数量 的 关系 曲线 


时 ,我 们 从 图 2-11 也 可 以 观察 到 聚 类 中 心 数量 为 3 也 符合 数据 的 分 布 特点 ,的 确 是 相对 
较为 合理 的 类 簇 数量 。 

。 特点 分 析 : K-means 聚 类 模型 所 采用 的 迭代 式 算法 ,直观 易 懂 并 且 非 常 实用 。 只 

是 有 两 大 缺陷 : 容易 收敛 到 局 部 最 优 解 ;@ 需要 预先 设 定 簇 的 数量 。 

首先 解释 什么 叫做 局 部 最 优 解 。 假 设 图 2-13 左 侧 为 实际 数据 以 及 正确 的 所 属 类 簇 。 
如 果 聚 类 算法 可 以 收敛 至 全 局 最 优 解 ,那么 三 个 类 簇 的 聚 类 中 心 应 如 右 侧 Global 
Optimum 所 示 , 聚 类 结果 同 正确 结果 一 致 。 但 是 ,K-means 算法 无 法 保证 能 够 使 得 三 个 
类 簇 的 中 心 迭 代 至 上 述 的 全 局 最 优 解 。 相 反 很 有 可 能 受到 随机 初始 类 簇 中 心 点 位 置 的 影 
响 , 最 终 迭 代 到 如 右 侧 Local Optimum 所 示 的 两 种 情况 而 收敛 。 这 样 便 导致 无 法 继续 更 
新 聚 类 中 心 ,使 得 聚 类 结果 与 正确 结果 又 很 大 出 入 。 这 是 算法 自身 的 理论 缺陷 所 造成 的 ， 
无 法 轻易 地 从 模型 设计 上 弥补 ; 却 可 以 通过 执行 多 次 K-means 算法 来 挑选 性 能 表现 更 好 
的 初始 中 心 点 ,这 样 的 工程 方法 代替 。 

然后 ,我 们 介绍 一 种 * 肘 部 ?观察 法 用 于 粗略 地 预 估 相 对 合理 的 类 簇 个 数 。 因 为 K- 
means 模型 最 终 期 望 所 有 数据 点 到 其 所 属 的 类 簇 距 离 的 平方 和 趋 于 稳定 ,所 以 我 们 可 以 
通过 观察 这 个 数值 随 着 K 的 走势 来 找 出 最 佳 的 类 复数 量 。 理 想 条 件 下 ,这 个 折线 在 不 断 
下 降 并 且 趋 于 平缓 的 过 程 中 会 有 斜率 的 拐点 ,同时 意味 着 从 这 个 拐点 对 应 的 K 值 开始 ， 
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2-13 K-means 算法 选 全 局 最 优 解 与 局 部 最 优 解 的 比较 ,图 片 摘自 于 互联 网 0( 见 彩 图 ) 
类 簇 中 心 的 增加 不 会 过 于 破坏 数据 聚 类 的 结构 。 以 代码 50 为 例 , 如 图 2-14 所 示 随 机 采样 
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图 2-14 3 个 簇 的 数据 样本 


(D http://www. cnblogs. com/python27/p/MachineLearningWeek08. html 


TY Pyho 机 器 学 习 及 实践 


三 个 类 簇 的 数据 点 。 通 过 图 2-15 发 现 ,类 艇 数量 为 1 或 2 的 时 候 ,样本 距 所 属 类 艇 的 平 
均 距 离 的 下 降 速度 很 快 ,这 说 明 更 改 K 值 会 让 整体 聚 类 结构 有 很 大 改变 ,也 意味 着 新 的 
聚 类 数量 让 算法 有 更 大 的 收敛 空间 ,这 样 的 K 值 不 能 反映 真实 的 类 入 数量 。 而 当 KK 二 3 
时 ,平均 距离 的 下 降 速 度 有 了 显著 放 缓 ,这 意味 着 进一步 增加 K 值 不 再 会 有 利于 算法 的 
收敛 ,也 同时 暗示 着 K —3 是 相对 最 佳 的 类 簇 数 量 。 


25 Selecting k with the Elbow Method 





Average Dispersion 
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图 2-15 “ 肘 部 "观察 平均 距离 与 类 入 数量 的 关系 


g 50:“ 肘 部 "观察 法 示例 


>>># 导 人 必要 的 工具 包 。 

>>> import numpy as rp 

>>> fram skleam.cluster import KMeans 

>>> fran scipy.spatial.distance import odist 
>>> import matplotlib.pyplot as plt 


>>># 使 用 均匀 分 布 函数 随机 三 个 能 ,每 个 能 周围 0 个 数据 样本 。 
>>> clusteri- rp.randam.unifomm(0.5, 1.5, (2, 10)) 
>>> cluster2=np.random.uniform(5.5, 6.5, (2, 10)) 
>>> cluster3=np.random.uniform(3.0, 4.0, (2, 10)) 


>>># 绘 制 3 个 数据 样本 的 分 布 图 像 。 

>>> X-rnp.hstack((clusterl, cluster2, cluster3)).T 
>>> plt.scatter 0], XL, 1]) 

>>> plt.xlabel ("x") 

>>> pt. ylabel ('2") 

>>> plt.show() 


>>># 测 试 9 种 不 同 聚 类 中 心 数 量 下 ,每 种 情况 的 聚 类 质量 ,并 作 图 。 
2»»K-range(l, 10) 
>>>meandistortions= [] 


>>> for k in K: 

>>> kmeans= Means (n_clusters= k) 

>>> kmeans.fit (X) 

>>> meandistortions.append (sum(np.min(cdist(X, kmeans.cluster centers , 
"euclidean'), axis- 1)) /X.shape[0]) 


>>>plt.plot K, meandistortions, "bx- ') 

>>> plt.xlabel ('k') 

>>> plt.ylabel ('Average Dispersion") 

>>> plt.title ("selecting k with the Elbow Method") 


>>> plt.show() | 


2.2.2 特征 降 维 


特征 降 维 是 无 监督 学 习 的 另 一 个 应 用 ,目的 有 二 : 其 一 ,我 们 会 经 常 在 实际 项 目 中 遭 
遇 特 征 维 度 非 常 之 高 的 训练 样本 ,而 往往 又 无 法 借助 自己 的 领域 知识 人 工 构建 有 效 特 征 ; 
其 二 ,在 数据 表现 方面 ,我 们 无 法 用 肉眼 观测 超过 三 个 维度 的 特征 。 因 此 ,特征 降 维 不 仅 
重 构 了 有 效 的 低 维度 特征 向 量 , 同 时 也 为 数据 展现 提供 了 可 能 。 在 特征 降 维 的 方法 中 , 主 
成 分 分 析 (Principal Component Analysis) 是 最 为 经 典 和 实用 的 特征 降 维 技术 ,特别 在 辅 
助 图像 识 别 方面 有 突出 的 表现 。 


2.2.2.1 主 成 分 分 析 


。 模型 介绍 : 首先 我 们 思考 两 个 小 例子 ,这 也 是 作者 经 常用 来 向 周围 朋友 解释 降低 
维度 .信息 元 余 和 PCA 功能 的 。 


如 代码 51 所 示 ,我 们 有 一 组 2X2 的 数据 [[1, 2],[2, 4]]。 假 设 这 两 个 数据 都 反映 
到 一 个 类 别 ( 分 类 ) 或 者 一 个 类 簇 ( 聚 类 )。 如 果 我 们 的 学 习 模 型 是 线性 模型 ,那么 这 两 个 
数据 其 实 只 能 帮助 权重 参数 更 新 一 次 ,因为 他 们 线性 相关 ,所 有 的 特征 数值 都 只 是 扩张 了 
相同 的 倍数 ;如 果 使 用 PCA 分 析 的 话 ,这 个 矩阵 的 “ 秩 ? 是 1, 也 就 是 说 ,在 多 样 性 程度 上 ， 
这 个 矩阵 只 有 一 个 自由 度 。 


[ «955 tme eonim 


>>># 导 人 nmpy 工 具 包 。 

>>> import numpy as np 

>>># 初 始 化 一 个 2* 2 的 线性 相关 矩阵 。 
»»»M-mp.array([[1, 2], (2, 411) 

>>> Hit HE 2* 2 线性 相关 矩阵 的 秩 。 
»»»rp.linalg.matrix rank(M, tol=None) _| 
1 


再 比如 ,图 2-16 所 示 的 几 张 花 酒 图 片 。 是 试图 把 三 维 物体 重新 映射 在 二 维 照片 的 过 
程 。 在 这 个 过 程 中 ,可 以 有 无 数 种 映射 的 角度 。 但 是 ,我 们 可 以 通过 肉眼 判断 出 ,最 后 一 
张 的 角度 最 为 合适 也 最 容易 分 辨 。 


ko 


图 2-16 花 酒 多 角度 照片 ,分 别 是 从 后 .前 ` 上 ,以 及 最 适合 角度 拍摄 ,图片 摘自 参考 文献 [8] 


其 实 ,我 们 也 可 以 把 PCA 当 作 特 征 选择 ,只 是 和 普通 理解 的 不 同 ,这 种 特征 选择 是 首 
先 把 原来 的 特征 空间 做 了 映射 ,使 得 新 的 映射 后 特征 空间 数据 彼此 正 交 。 这 样 一 来 ,我 们 
通过 主 成 分 分 析 就 尽 可 能 保留 下 具备 区 分 性 的 低 维 数据 特征 。 
* 数据 描述 : 本 节 我 们 依然 沿用 上 一 节 使 用 的 “手写 体 数字 图 像 " 全 集 数据 。 因 为 
之 前 我 们 已 经 对 这 个 数据 集中 训练 测试 样本 的 数量 ,图 像 的 数码 维度 做 了 介绍 ， 
这 里 便 不 再 歼 述 。 而 是 从 主 成 分 分 析 技术 方便 展示 数据 的 角度 出 发 ,为 读者 朋友 
显示 经 过 PCA 处 理 之 后 ,这 些 数字 图 像 映射 在 二 维 空间 的 分 布 情况 ,如 图 2-17 
所 示 。 尽 管 我 们 把 原始 六 十 四 维度 的 图 像 压缩 到 只 有 二 个 维度 的 特征 空间 ,依然 
可 以 发 现 绝 大 多 数 数 字 之 间 的 区 分 性 ,详细 过 程 请 见 代 码 52. 
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图 2-17 手写 体 数字 图 像 经 PCA 压缩 后 的 二 维 空间 分 布 ( 见 彩 图 ) 


| 代码 52. 显示 手写 体 数 字 图 片 经 PCA 压缩 后 的 二 维 空间 分 布 


>>># 导 和 人 Pandas 用 于 数据 读 取 和 处 理 。 
>>> import pandas as pd 


>>># 从 互联 网 读 人 手写 体 图 片 识 别 任务 的 训练 数据 ,存储 在 变量 digits train 中。 
>>> digits train- pd.read csv ('https://archive. ics. uci. edu/ml/machine- learning- databases/ 
optdigits/optdigits.tra', header=None) 


>>>+ 从 互联 网 读 人 手写 体 图 片 识别 任务 的 测试 数据 ,存储 在 变量 digits test 中 。 
>>> digits test= pd.read csv ('https://archive. ics. uci. edu/ml/machine - leaming- databases/ 
Gotdigits/optdigits.tes', header-None) 


>>>+# 分 割 训练 数据 的 特征 向 量 和 标记 。 
>>>X digits-digits trainfnp.arange (64)] 


>>>Y digits-digits train[64] 


25» 4 从 sklearn.deoamposition $À PA. 





i94: Pyha 机 器 学 习 及 实 中 


>>> fran skleam.decamposition import ECA 


>>># 初 始 化 一 个 可 以 将 高 维度 特征 向 量 (六 十 四 维 ) 压 缩 至 二 个 维度 的 BC, 
>>> estimator= PCA (n_components= 2) 
>>> _poa- estimator. fit transform digits) 


>>> 显示 10 类 手写 体 数 字 图 片 经 FA 压缩 后 的 2 维 空间 分 布 。 

>>> fran matplotlib import pyplot as plt 

>>> def plot pca scatter(): 

>>> colors- ['black', 'blue', 'purple', 'yellow', 'white', 'red', 'lime', 
"cyen', "orange', 'gray'] 


>>> for i in xrange (len (colors)) : 


>>> Pex paa[:, 0] [y digits.as matrix() --i] 
>>> py-X peal:, 1][y digits.as matrix()-- i] 
>>> pit.scatter (px, py, c- oolors[i]) 


>>> pit.legend(m.arange (0,10) .astype (str) ) 
>>> plt.xlabel ("First Principal Camponent!) 
>>> pit.ylabel ("Second Principal Camponent') 
>>> pit.show() 


»»»plot pca scatter() | 


* 编程 实践 : 我 们 在 “2. 1. 1. 2 支持 向 量 机 (分 类 )" 节 使 用 支持 向 量 机 分 类 模型 对 手 
写 体 数字 图 像 进 行 识别 ,并 取得 了 很 好 的 预测 性 能 。 当 时 ,我 们 使 用 了 全 部 8X8 
二 64 维度 的 图 像 像 素 特征 对 模型 进行 训练 。 这 一 节 , 我 们 通过 代码 53, 分 别 训练 
两 个 以 支持 向 量 机 (分 类 ) 为 基础 的 手写 体 数 字 图 像 识别 模型 ,其 中 一 个 模型 使 用 
原始 六 十 四 维度 的 像素 特征 , 另 一 个 采用 经 过 PCA 压缩 重建 之 后 的 低 维 特征 。 


| 代码 53. 使 用 原始 像素 特征 和 经 PCA 压缩 重建 的 低 维 特征 ,在 相同 配置 的 支持 
向 量 机 (分 类 ) 模 型 上 分 别 进行 图 像 识别 
>>># 对 训练 数据 ,测试 数据 进行 特征 向 量 (图 片 像素 ) 与 分 类 目标 的 分 隔 。 
>>>X train-digits train[np.arange (64) ] 
»»»y train-digits train[64] 
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>>>X test-digits test[np.arange (64) ] 
»»»y test-digits test[64] 


>>># 导 入 基于 线性 核 的 支持 向 量 机 分 类 器 。 
>>> frm skleam.svm import LinearSvc 


>>># 使 用 默认 配置 初始 化 inearsvc, 对 原始 六 十 四 维 像素 特征 的 训练 数据 进行 建 模 ,并 在 测试 
数据 上 做 出 预测 ,存储 在 y predict 中 。 

>>> svc LinearSVC() 

>>> svc.fit (X train, y train) 

>>> y predict- svc.predict (X test) 


>>># 使 用 FA 将 原 六 十 四 维 的 图 像 数 据 压缩 到 20 个 维度 。 
>>> estimator= PCA (n_camponents= 20) 


>>># 利 用 训练 特征 决定 (刀口 20 个 正 交 维度 的 方向 ,并 转化 (transform 原 训 练 特征 。 
»»»pca X train-estimetor.fit transform(X train) 

>>># 测 试 特征 也 按照 上 述 的 20 个 正 交 维 度 方向 进行 转化 (transform 。 

»»»pca X test- estimator.transfonn(x_test) 


>>>+ 使 用 默认 配置 初始 化 Tinearsvc, 对 压缩 过 后 的 二 十 维特 征 的 训练 数据 进行 建 模 , 并 在 测试 
数据 上 做 出 预测 ,存储 在 pea. y Predict 中 。 

>>> pca_svc= LinearSvc() 

»»»pca svc.fit(pca X train, y train) 

>>>pca y predict-pca svc.predict(pca X test) = 


* 性 能 测评 : 代码 54 将 对 比 原始 维度 特征 与 经 过 PCA 压缩 重建 之 后 的 图 像 特 征 ， 
在 相同 配置 的 支持 向 量 机 (分 类 ) 模 型 上 识别 性 能 的 差异 。 
| 代码 54: 原始 像素 特征 与 PCA 压缩 重建 的 低 维特 征 ,在 相同 配置 的 支持 向 量 机 
(分 类 ) 模 型 上 识别 性 能 的 差异 
>>># 从 skleam.metrics 导 入 classification report 用 于 更 加 细致 的 分 类 性 能 分 析 。 


>>> frm skleam.metrics import classification report 


>>># 对 使 用 原始 图 像 高 维 像素 特征 训练 的 支持 向 量 机 分 类 器 的 性 能 作出 评估 。 
>>>print svc.score(X test, y test) 


Pyho 机 器 学 习 及 实践 





: 96 . 


>>> print classification report(y test, y predict, target names-mp.arange (10) .astype (str)) 


>>># 对 使 用 FA 压缩 重建 的 低 维 图 像 特征 训练 的 支持 向 量 机 分 类 器 的 性 能 作出 评估 。 
>>>print pca sve.score(pca X test, y test) 


2»»print classification report (y test, pca y predict, target names- mp.arange (10) .astype (str) ) 


0.930996104619 
precision recall fl-score support 


0 0.99 0.98 0.99 178 
1 0.94 0.84 0.89 182 
2 0.99 0.97 0.98 ir 
3 0.97 0.92 0.94 183 
4 0.95 0.97 0.96 181 
5 0.89 0.96 0.93 182 
6 0.99 0.98 0.99 181 
* 0.98 0.90 0.94 179 
8 0.78 0.91 0.84 174 
9 0.86 0.89 0.87 180 
avg / total 0.93 0.93 0.93 177 
0. 909293266555 
precision recall fl-score support 
0 0.96 0.96 0.96 178 
1 0.78 0.85 0.82 182 
2 0.96 0.98 0.97 177 
3 0.99 0.89 0.94 183 
4 0.95 0.92 0.93 181 
5 0.84 0.97 0.90 182 
6 0.96 0.97 0.96 181 
7 0.93 0.22 0.98 179 
8 0.83 0.83 0.83 174 
9 0.22 0.82 0.86 180 
avg / total 0.91 0.91 0.91 rm 


我 们 从 代码 54 的 输出 中 发 现 ,尽管 经 过 PCA 特征 压缩 和 重建 之 后 的 特征 数据 会 损 
A 2% 左 右 的 预测 准确 性 ,但 是 相 比 于 原始 数据 六 十 四 维度 的 特征 而 言 ,我 们 却 使 用 PCA 
压缩 并 且 降 低 了 68.75% 的 维度 。 
”特点 分 析 : 降 维 /压缩 问题 则 是 选取 数据 具有 代表 性 的 特征 ,在 保持 数据 多 样 性 
(Variance) 的 基础 上 ,规避 掉 大 量 的 特征 元 余 和 噪声 ,不 过 这 个 过 程 也 很 有 可 能 
会 损失 一 些 有 用 的 模式 信息 。 经 过 大 量 的 实践 证 明 , 相 较 于 损失 的 少 部 分 模型 性 
能 ,维度 压缩 能 够 节省 大 量 用 于 模型 训练 的 时 间 。 这 样 一 来 ,使 得 PCA 所 带 来 的 
模型 综合 效率 变 得 更 为 划算 。 
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作为 全 书 的 基础 与 核心 章节 之 一 ,笔者 希望 各 位 读者 朋友 在 阅读 完 本 章 后 ,能 够 对 经 
典 机 器 学 习 模型 的 种 类 和 各 自 特 性 有 所 了 解 。 

在 模型 种 类 方面 ,我 们 希望 读者 朋友 可 以 回答 如 下 问题 : 

(1) 机 器 学 习 模型 按照 可 使 用 的 数据 类 型 ,可 以 分 为 哪些 类 别 ? 

(2) 常见 的 监督 学 习 与 无 监督 学 习 的 模型 都 有 哪些 ? 

就 模型 特性 而 言 ,我 们 希望 大 家 可 以 总 结 和 归纳 : 

CD 各 个 模型 分 别 基于 哪些 数学 假设 ? 

(2) 各 个 模型 适合 处 理 哪 类 数据 ? 

(3) 每 个 模型 在 使 用 方面 的 优 缺 点 有 哪些 ? 

(4) 常见 的 用 于 评估 各 个 模型 的 性 能 指标 以 及 计算 方法 是 怎样 的 ? 

如 果 读 者 不 仅 可 以 回答 上 述 问题 ,并 且 能 够 独立 实践 本 章 的 代码 ,那么 您 已 经 初步 具 
备 了 实践 机 器 学 习 经 典 模型 的 知识 及 能 力 ,期 待 大 家 学 习 愉 快 。 本 章 所 有 数据 与 代码 示 
例 都 可 以 通过 此 链接 http://pan. baidu. com/s/1dENAUTr 以 及 http://pan. baidu. 
com/s/1kVo3fr5 下 载 。 
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在 第 2 章 中 ,我 们 向 读者 介绍 了 大 量 经 典 的 机 器 学 习 模 型 ,并 且 使 用 Python 编程 语 
言 分 析 这 些 模型 在 许多 不 同 现实 数据 上 的 性 能 表现 。 然 而 ,细心 的 读者 在 深入 研究 这 些 
数据 或 者 查阅 Scikit-learn 的 文档 之 后 就 会 发 现 : 所 有 我 们 在 第 2 章 中 使 用 过 的 数据 几 
乎 都 经 过 了 规范 化 处 理 ,而 且 模型 也 大 多 只 是 采用 了 默认 的 初始 化 配置 。 换 言 之 ,尽管 我 
们 可 以 使 用 经 过 处 理 之 后 的 数据 ,在 默认 配置 下 学 习 到 一 套用 以 拟 合 这 些 数 据 的 参数 ,并 
且 使 用 这 些 参 数 和 默认 配置 取得 一 些 看 似 良 好 的 性 能 表现 ;但 是 我 们 仍然 无 法 回答 几 个 
最 为 关键 的 问题 : 实际 研究 和 工作 中 接触 到 的 数据 都 是 这 样 规 整 的 吗 ? 难道 这 些 默认 配 
置 就 是 最 佳 的 么 ?我 们 的 模型 性 能 是 否 还 有 提升 的 空间 ? 本 章 “3. 1 模型 使 用 技巧 ” 节 将 
会 帮助 读者 朋友 解答 上 述 疑 问 。 阅 读 完 这 一 节 , 相 信 各 位 读者 朋友 就 会 掌握 如 何 通 过 抽 
取 或 者 筛选 数据 特征 、 优 化 模型 配置 ,进一步 提升 经 典 模型 的 性 能 表现 。 

然而 , 随 着 近 些 年 机 器 学 习 研 究 与 应 用 的 快速 发 展 , 经 典 模型 渐渐 无 法 满足 日 益 增长 
的 数据 量 和 复杂 的 数据 分 析 需 求 。 因 此 , 越 来 越 多 更 加 高 效 而 且 强力 的 学 习 模型 以 及 对 
应 的 程序 库 正 逐 渐 被 设计 和 编写 ,并 慢 慢 被 科研 圈 和 工业 界 所 广泛 接受 与 采用 。 这 些 模 
型 和 程序 库 包括 : 用 于 自然 语言 处 理 的 NLTK 程序 包 ; 词 向 量 技术 Word2Vec; 能 够 提供 
强大 预测 能 力 的 XGBoost 模型 ,以 及 Google 发 布 的 用 于 深度 学 习 的 Tensorflow 框架 等 
等 。 更 加 令 人 振奋 的 是 ,上 述 这 些 最 为 流行 的 程序 库 和 模型 , 不 但 提供 了 Python 的 编程 
接口 API, 而 且 有 些 成 为 Python 编程 语言 的 工具 包 , 更 是 方便 了 我 们 后 续 的 学 习 和 使 用 。 
因此 ,在 “3.2 流行 库 / 模 型 实践 " 节 将 会 带领 各 位 读者 一 同 领略 这 些 时 下 最 为 流行 的 程序 
库 和 新 模型 的 奥妙 。 
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这 一 节 将 向 读者 朋友 传授 一 系列 更 加 偏向 于 实战 的 模型 使 用 技巧 。 相 信 各 位 读者 在 
第 2 章 中 品味 了 多 个 经 典 的 机 器 学 习 模型 之 后 ,就 会 发 现 : 一 旦 我 们 确定 使 用 某 个 模型 ， 





本 书 所 提供 的 程序 库 就 可 以 帮助 我 们 从 标准 的 训练 数据 中 ,依靠 默认 的 配置 学 习 到 模型 
所 需要 的 参数 (Parameters) ; 接 下 来 ,我 们 便 可 以 利用 这 组 得 来 的 参数 指导 模型 在 测试 数 
据 集 上 进行 预测 ,进而 对 模型 的 表现 性 能 进行 评价 。 

但 是 ,这 套 方案 并 不 能 保证 : (1) 所 有 用 于 训练 的 数据 特征 都 是 最 好 的 ;(2) 学 习 得 
到 的 参数 一 定 是 最 优 的 ;(3) 默认 配置 下 的 模型 总 是 最 佳 的 。 也 就 是 说 ,我 们 可 以 从 多 个 
角度 对 在 前 面 所 使 用 过 的 模型 进行 性 能 提升 。 本 节 将 向 大 家 介绍 多 种 提升 模型 性 能 的 方 
式 , 包 括 如 何 预 处 理 数 据 ,控制 参数 训练 以 及 优化 模型 配置 等 方法 。 


3.1.1 特征 提升 


早期 机 器 学 习 的 研究 与 应 用 , 受 模型 种 类 和 运算 能 力 的 限制 。 因 此 ,大 部 分 研发 人 员 
把 更 多 的 精力 放 在 对 数据 的 预 处 理 上 。 他 们 期 望 通过 对 数据 特征 的 抽取 或 者 筛选 来 达到 
提升 模型 性 能 的 目的 。 所 谓 特 征 抽取 ,就 是 逐条 将 原始 数据 转化 为 特征 向 量 的 形式 ,这 个 
过 程 同 时 涉及 对 数据 特征 的 量化 表示 ;而 特征 筛选 则 更 进一步 ,在 高 维度 .已 量化 的 特征 
向 量 中 选择 对 指定 任务 更 有 效 的 特征 组 合 ,进一步 提升 模型 性 能 。 

3.1.1.1 特征 抽取 

原始 数据 的 种 类 有 很 多 种 ,除了 数字 化 的 信号 数据 ( 声 纹 . 图 像 ) ,还 有 大 量 符号 化 的 
文本 。 然 而 ,我 们 无 法 直接 将 符号 化 的 文字 本 身 用 于 计算 任务 ,而 是 需要 通过 某 些 处 理 手 
段 ,预先 将 文本 量化 为 特征 向 量 。 

有 些 用 符号 表示 的 数据 特征 已 经 相对 结构 化 ,并 且 以 字典 这 种 数据 结构 进行 存储 。 
这 时 ,我 们 使 用 Dict Vectorizer 对 特征 进行 抽取 和 向 量化 。 比 如 下 面 的 代码 55。 

代码 55; DictVectorizer 对 使 用 字典 存储 的 数据 进行 特征 抽取 与 向 量化 

>>># 定 义 一 组 字典 列表 ,用 来 表示 多 个 数据 样本 (每 个 字典 代表 一 个 数据 样本 ) 。 


>>> measurements= [('city': "Dubai', 'temperature': 33.), ('city': "London', 'temperature': 12.}, ei 


city': 'San Fransisco', 'temperature': 18.)] 

>>># 从 skleamn.feature extraction A DictVectorizer 
>>> frm skleamn.feature extraction import DictVectorizer 
>>># 初 始 化 ictvectorizer 特 征 抽取 器 

>>> vec- DictVectorizer () 

>>>+# 输 出 转化 之 后 的 特征 和 矩阵。 

>>> print vec.fit transform(measurements) .toarray () 

>>># 输 出 各 个 维度 的 特征 含义 。 
>>>print vec.get feature names() 


[ 0. 0. 1. 18] 
['city- Dubai', 'city-Icndon', 'city- San Fransisco', 'temperature'] | 


从 代码 55 的 输出 可 以 看 到 : 在 特征 向 量化 的 过 程 中 , Dict Vectorizer 对 于 类 别 型 
(Categorical) 与 数值 型 (Numerical) 特 征 的 处 理 方式 有 很 大 差异 。 由 于 类 别 型 特征 无 法 
直接 数字 化 表示 ,因此 需要 借助 原 特征 的 名 称 , 组 合 产生 新 的 特征 ,并 采用 0/1 二 值 方式 
进行 量化 ;而 数值 型 特征 的 转化 则 相对 方便 ,一 般 情 况 下 只 需要 维持 原始 特征 值 即 可 。 

另外 一 些 文本 数据 则 表现 得 更 为 原始 ,几乎 没有 使 用 特殊 的 数据 结构 进行 存储 ,只 是 

-系列 字符 串 。 我 们 处 理 这 些 数据 ,比较 常用 的 文本 特征 表示 方法 为 词 袋 法 (Bag of 
Words) ; 顾名思义 ,不 考虑 词语 出 现 的 顺序 ,只 是 将 训练 文本 中 的 每 个 出 现 过 的 词汇 单 
独 视 作 一 列 特征 。 我 们 称 这 些 不 重复 的 词汇 集合 为 词 表 (Vocabulary) ,于 是 每 条 训练 文 
本 都 可 以 在 高 维度 的 词 表 上 映射 出 一 个 特征 向 量 。 而 特征 数值 的 常见 计算 方式 有 两 种 ， 
分 别 是 : CountVectorizer 和 TfidfVectorizer。 对 于 每 一 条 训练 文本 ,CountVectorizer 只 
考虑 每 种 词汇 (Termy) 在 该 条 训练 文本 中 出 现 的 频率 (Term Frequency), iii 
TfidfVectorizer 除了 考量 某 一 词汇 在 当前 文本 中 出 现 的 频率 (Term Frequency) 之 外 , 同 
时 关注 包含 这 个 词汇 的 文本 条 数 的 倒数 (Inverse Document Frequency)。 相 比 之 下 ,训练 
文本 的 条 目 越 多 , TfidfVectorizer 这 种 特征 量化 方式 就 更 有 优势 。 因 为 我 们 计算 词 频 
(CTerm Frequency) 的 目的 在 于 找 出 对 所 在 文本 的 含义 更 有 贡献 的 重要 词汇 。 然 而 ,如 果 

-个 词汇 几乎 在 每 篇 文本 中 出 现 , 说 明 这 是 一 个 常用 词汇 ,反而 不 会 帮助 模型 对 文本 的 分 
类 ;在 训练 文本 量 较 多 的 时 候 , 利 用 TfidfVectorizer 压制 这 些 常 用 词汇 的 对 分 类 决策 的 
干扰 ,往往 可 以 起 到 提升 模型 性 能 的 作用 。 

我 们 通常 称 这 些 在 每 条 文本 中 都 出 现 的 常用 词汇 为 停 用 词 (Stop Words) ,如 英文 中 
的 thea 等。 这 些 停 用 词 在 文本 特征 抽取 中 经 常 以 黑 名 单 的 方式 过 滤 掉 , 并 且 用 来 提高 
模型 的 性 能 表现 。 下 面 的 代码 让 我 们 重新 对 “20 类 新 闻 文 本 分 类 "问题 进行 分 析 处 理 , 这 

-次 的 重点 在 于 列举 上 述 两 种 文本 特征 量化 模型 的 使 用 方法 ,并 比较 他 们 的 性 能 差异 。 


| 代码 56: 使 用 CountVectorizer 并 且 不 去 掉 停 用 词 的 条 件 下 ,对 文本 特征 进行 量化 
的 朴素 贝 叶 斯 分 类 性 能 测试 
>>> 8 JA skleam.datasets 里 导入 20 类 新 闻 文本 数据 抓 取 器 。 
>>> fram sklearn.datasets import fetch 20newsgroups 
>>> + 从 互联 网 上 即时 下 载 新 闻 样 本 ,sibset= 'all' 参 数 代 表 下 载 全 部 近 2 万 条 文本 存储 在 变 
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Tt news 中 。 
>>> news= fetch 20newsgroups(subset= 'all') 


>>># 从 skleam.cross validation A train test split 模 块 用 于 分 割 数据 集 。 

>>> fran skleam.cross validation import train test split 

>>># 对 news 中 的 数据 data 进 行 分 割 ,258 的 文本 用 作 测 试 集 ;75s 作 为 训练 集 。 

>>>X train, X test, y train, y test- train test split (news.data, news.target, test size- 0.25, 
randm state- 33) 


>>># 从 skleam.feature_extraction.text E-A CountVectorizer 

>>> from sklearn.feature extraction.text import CountVectorizer 

>>># 采 用 默认 的 配置 对 countvectorizer 进行 初始 化 (默认 配置 不 去 除 英文 停 用 词 ), 并 且 赋 值 给 
变量 count. vec. 

>>> cout vec- CountVectorizer () 


>>># 只 使 用 词 频 统计 的 方式 将 原始 训练 和 测试 文本 转化 为 特征 向 量 。 
>>>X cout train-count vec.fit transfomm(X train) 
>>> X_count_test= count_vec.transform(x_test) 


22» 4 SA skleam.naive bayes 里 导 人 朴素 贝 叶 斯 分 类 器 。 

>>> from sklearn.naive bayes import MiltinamialNB 

>>>+ 使 用 默认 的 配置 对 分 类 器 进行 初始 化 。 

>>>mb count-MiltinamialNB() 

>>>+# 使 用 朴素 贝 叶 斯 分 类 器 ,对 countvectorizer( 不 去 除 停 用 词 ) 后 的 训练 样本 进行 参数 学 习 。 
>>>mb count.fit(X count train, y train) 


>>># 输 出 模型 准确 性 结果 。 

>>> print 'The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without 
filtering stopwords) :', mb count.score(X count test, y test) 

>>># 将 分 类 预测 的 结果 存储 在 变量 y count. predict 中 。 

>>>y count predict=mb_ oount.predict(X count test) 

>>># 从 skleam.netrics $A classification report, 

>>> from sklearn.metrics import classification report 

>>># 输 出 更 加 详细 的 其 他 评价 分 类 性 能 的 指标 。 

>>>print classification report (y test, y count predict, target names=news.target names) 
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The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without filtering 
stopwords) : 0.839770797963 


precision recall fl- score ‘support 
alt.atheism 0.86 0.86 0.86 201 
canp.graphics 0.59 0.86 0.70 250 
comp.os.ms- windows .misc 0.89 0.10 0.17 248 
comp. sys.iim.pe. hardware 0.60 0.88 0.72 240 
carp.sys.rac.hardware. 0.93 0.78 0.85 242 
comp. windows.x 0.82 0.84 0.83 26 
misc.forsale 0.91 0.70 0.79 257 
rec.autos 0.89 0.89 0.89 238 
rec.motorcycles 0.98 0.92 0.95 276 
rec. Sport.baseball 0.98 0.91 0.95 251 
rec.sport.hockey 0.93 0.99 0.96 233 
sci.crypt 0.86 0.98 0.91 238 
Sci.electronics 0.85 0.88 0.86 249 
sci med 0.92 0.94 0.93 245 
sci.space 0.89 0.96 0.92 21 
soc.religion.christian 0.78 0.96 0.86 23 
talk.politics.guns 0.88 0.96 0.92 251 
talk.politics.mideast 0.90 0.98 0.94 231 
talk.politics.misc 0.79 0.89 0.84 188 
talk.religicn.misc 0.93 0.44 0.60 158 
avg / total 0.86 0.84 0.82 n2 _| 


从 上 面 代码 的 输出 ,我们 可 以 知道 ,使 用 CountVectorizer 在 不 去 掉 停 用 词 的 条 件 下 ， 
对 训练 和 测试 文本 进行 特征 量化 ,并 利用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 测试 文本 上 可 
以 得 到 83. 977% 的 预测 准确 性 。 而 且 , 平 均 精度 、 召 回 率 和 Fl 指标 ,分 别 是 0. 86、0. 84 
以 及 0. 82, 

接 下 来 ,让 我 们 使 用 与 代码 56 相同 的 训练 和 测试 数据 ,在 不 去 掉 停 用 词 的 条 件 下 利 
用 TfidfVectorizer 进行 特征 量化 ,并 且 评 估 模 型 性 能 。 


[es 57. 使 用 Tfidfvectorizer 并 且 不 去 掉 停 用 词 的 条 件 下 ,对 文本 特征 进行 量化 
: 的 朴素 贝 叶 斯 分 类 性 能 测试 


>>># 从 skleam.feature extracticn.text 里 分 别 导 入 Tfidfvectorizer, 


>>> fran sklearn.feature extraction.text import TfidfVectorizer 

>>># 采 用 默认 的 配置 对 Tfidfvectorizer 进 行 初始 化 (默认 配置 不 去 除 英 文 停 用 词 ) ,并 且 赋 值 给 
变量 tfidf vec. 

>>> tfidf vec- TfidfVectorizer() 


>>># 使 用 tfidf 的 方式 ,将 原始 训练 和 测试 文本 转化 为 特征 向 量 。 
>>>X tfidf train-tfidf vec.fit transform(X train) 
>>>X tfidf test-tfidf vec.transform(X test) 


>>># 依 然 使 用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 相同 的 训练 和 测试 数据 上 ,对 新 的 特征 量化 方 
式 进行 性 能 评估 。 
>>>mb tfidf-MitinqmialNB() 
>>>mb tfidf.fit(X tfidf train, y train) 
>>> print 'The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without 
filtering stopwords) :', mb tfidf.score(X tfidf test, y test) 
>>> y_tfidf predict-mmb tfidf.predict(X tfidf test) 
>>> print classification report(y test, y tfidf predict, target names-news.target names) 
The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without filtering 
stopwords) : 0.846349745331 


precision recall fl- score support 

alt.atheism 0.84 0.67 0.75 201 
conp.graphics 0.85 0.74 0.79 250 
camp.os.ms- windows misc 0.82 0.85 0.83 248 
carp. sys.ibm.pc.hardware 0.76 0.88 0.82 240 
camp. sys.mec.hardware 0.94 0.84 0.89 242 
comp. windows x 0.96 0.84 0.89 263 
misc.forsale 0.93 0.69 0.79 257 

rec.autos 0.84 0.22 0.88 238 
Tec.motorcycles 0.98 0.92 0.95 276 

rec. Sport .baseball 0.96 0.91 0.94 21 

rec. sport .hockey 0.88 0.99 0.93 23 
Sci.crypt 0.73 0.98 0.83 238 
sci.electronics 0.91 0.83 0.87 249 
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scimed 0.97 0.92 0.95 245 

sci.space 0.89 0.96 0.93 221 
soc.religion.christian 0.51 0.97 0.67 2 
talk.politics.guns 0.83 0.96 0.89 251 
talk.politics.midast. 0.92 0.97 0.95 231 
talk.politics.misc 0.98 0.2 0.76 188 
talk.religion.misc 0.93 0.16 0.28 158 
aug / total 0.87 0.85 0.84 4n2 


| 


由 上 述 代码 的 输出 结果 ,可 得 出 结论 : 在 使 用 TfidfVectorizer 而 不 去 掉 停 用 词 的 条 


件 下 ,对 训练 和 测试 文本 进行 特征 量化 .并 利用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 测试 文 
本 上 可 以 得 到 比 CountVectorizer 更 加 高 的 预测 准确 性 , 即 从 83.977% 提 升 到 84. 63524. 
而 且 ,平均 精度 .召回 率 和 Fl 指标 都 得 到 提升 ,分 别 是 0.87.0. 85 以 及 0. 84。 从 而 ,证 明 
了 前 面 叙 述 的 观点 :“ 在 训练 文本 量 较 多 的 时 候 , 利 用 TfidfVectorizer 压制 这 些 常用 词汇 
的 对 分 类 决策 的 干扰 ,往往 可 以 起 到 提升 模型 性 能 的 作用 ”。 


最 后 ,让 我 们 使 用 下 面 的 代码 继续 验证 另 一 个 观点 :“ 这 些 停 用 词 (Stop Words) 在 文 


本 特征 抽取 中 经 常 以 黑 名 单 的 方式 过 滤 掉 ,并 且 用 来 提高 模型 的 性 能 表现 ”。 


[ «9 58: 分 别 使 用 CountVectorizer 5j TfidfVectorizer, 并 且 去 掉 停 用 词 的 条 件 下 ， 


对 文本 特征 进行 量化 的 朴素 贝 叶 斯 分 类 性 能 测试 


>>># 继 续 沿用 代码 56 与 代码 7 中 导入 的 工具 包 ( 在 同一 份 源 代码 中 或 者 不 关闭 解释 器 环境 )，: 
分 别 使 用 停 用 词 过 滤 配 置 初始 化 Countvectorizer 5j TfidfVectorizer. i 
>>> oount filter vec, tfidf filter vec- CountVectorizer (analyzer= 'word', stop_words= 'english!), | 
TfidfVectorizer(analyzer- 'word', stop words- 'english') 


>>>+# 使 用 带 有 停 用 词 过 滤 的 Countvectorizer 对 训练 和 测试 文本 分 别 进行 量化 处 理 。 
>>>X count filter train-count filter vec.fit transform(X train) 
>>>X count filter test= count filter vec.transform(X test) 


>>>+ 使 用 带 有 停 用 词 过 滤 的 Tfidfvectorizer 对 训练 和 测试 文本 分 别 进行 量化 处 理 。 
>>>X tfidf filter train-tfidf filter vec.fit transform(X train) 
>>>X tfidf filter test-tfidf filter vec.transform(X test) 


>>># 初 始 化 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,并 对 countvectorizer 后 的 数据 进行 预测 与 准确 性 评 
fh. i 





>>>mb count filter-MitinmialNB () 

>>>mb ont filter.fit(X count filter train, y train) 

>>>print "The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer by filtering 
stopwords) :', mb cant filter.sore% ount filter test, y test) 

>>>y count filter predict-mnb count filter.predict(X count filter test) 


>>># 初 始 化 另 一 个 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,并 对 TEidtVectorizer Jr fy 308 t (1-808 55 E 
确 性 评估 。 

>>>mb tfidf filter=MnltinmmialNB() 

>>>mmb tfidf filter.fit(X tfidf filter train, y train) 

»»» print "The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by filtering 
stopwords) :', mb tfidf filter.score( tfidf filter test, y test) 

>>>Y tfidf filter predict-mrb tfidf filter.predict(X tfidf filter test) 


>>># 对 上 述 两 个 模型 进行 更 加 详细 的 性 能 评估 。 

>>> frm skleam.metrics import classification report 

>>> print classification report (y test, y count filter predict, target names-news.target names) 
»»»print classification report(y test, y tfidf filter predict, target names-news.target names) 


The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer by filtering stopwords) : 
0.863752122241 
The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by filtering stopwords) : 0. 


precision recall fl- score support 

alt.atheisn 0.85 0.89 0.87 201 
comp.graphics 0.€2 0.88 0.73 250 
carp.os.ms- windows misc 0.93 0.22 0.36 248 
comp. sys.ihm.pc.hardware 0.€2 0.88 0.73 240 
camp. sys mac.hardware 0.93 0.85 0.89 242 
amp. windows x 0.82 0.85 0.84 263 
misc.forsale 0.90 0.79 0.84 251 

rec.autos 0.91 0.91 0.91 238 
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代码 58 的 输出 依旧 证 明 TfidfVectorizer 的 特征 抽取 和 量化 方法 更 加 具备 优势 ; 同 
时 ,通过 与 代码 56 和 代码 57 的 性 能 比较 ,我 们 发 现 : 对 停 用 词 进行 过 滤 的 文本 特征 抽取 
方法 ,平均 要 比 不 过 滤 停 用 词 的 模型 综合 性 能 高 出 3% ~4% o 


3.1.1.2 特征 筛选 


读者 在 实践 了 本 书 的 一 些 数据 样 例 之 后 ,一 定 对 如 何 有 效 地 利用 数据 特征 有 自己 的 
心得 体会 。 总 体 来 讲 ,良好 的 数据 特征 组 合 不 需 太 多 , 便 可 以 使 得 模型 的 性 能 表现 突出 。 
比如 ,我 们 在 第 1 章 的 “ 良 / 恶 性 乳腺 瘤 肿瘤 预测 ”问题 中 ,仅仅 使 用 两 个 描述 肿瘤 形态 的 
特征 便 可 以 取得 很 高 的 识别 率 。 完 余 的 特征 虽然 不 会 影响 到 模型 的 性 能 ,不 过 却 使 得 
CPU 的 计算 做 了 无 用 功 。 比 如 , 主 成 分 分 析 主要 用 于 去 除 多 余 的 那些 线性 相关 的 特征 组 
合 ,原因 在 于 这 些 宛 余 的 特征 组 合并 不 会 对 模型 训练 有 更 多 贡献 。 而 不 良 的 特征 自然 会 
降低 模型 的 精度 。 

特征 筛选 与 PCA 这 类 通过 选择 主 成 分 对 特征 进行 重建 的 方法 略 有 区 别 : 对 于 PCA 
而 言 ,我 们 经 常 无 法 解释 重建 之 后 的 特征 ;但 是 特征 筛选 不 存在 对 特征 值 的 修改 ,而 更 加 
侧重 于 寻找 那些 对 模型 的 性 能 提升 较 大 的 少量 特征 。 

这 里 我 们 在 代码 59 中 继续 沿用 Titanic 数据 集 , 这 次 试图 通过 特征 筛选 来 寻找 最 佳 
的 特征 组 合 , 并 且 达 到 提高 预测 准确 性 的 目标 。 


[ 代码 59; 使 用 Titanio 数据 集 , 通 过 特征 和 选 的 方法 一 步 步 提升 决策 树 的 预测 性 能 


>>># 导 人 pandas 并 且 更 名 为 pd 

>>> import pandas as pd 

>>># 从 互联 网 读 取 titanic BE. 

>>> titanic-pd.read csv ('http://biostat. mc. vanderbilt .edu/wiki /pub/Main/DataSets /titanic.txt") 


>>># 分 离 数据 特征 与 预测 目标 。 
>>> y= titanic['survived'] 
2»»X-titanic.drop(['row.names', 'name', 'survived'], axis=1) 


>>># 对 对 缺失 数据 进行 填充 。 
>>>X['age'] .fillna (X['age'] .mean(), inplace- True) 
22» X.fillna (UNENORN'，inplace= True) 


>>># 分 割 数据 ,依然 采样 2 用 于 测试 。 
>>> from skleam.cross validation import train test split 





>>>X train, X test, y train, y test-train test split, y, test size-0.25, randa state- 33) 


>>># 类 别 型 特征 向 量化 。 

>>> fran sklearn.feature extraction import DictVectorizer 

>>> vec- DictVectorizer () 

>>>X train= vec.fit transform(X train.to dict (orient- 'record")) 
>>>X test-vec.transform(X test.to dict(orient- 'record")) 


>>># 输 出 处 理 后 特征 向 量 的 维度 。 
>>>Print len(vec.feature names ) 
474 


>>>+# 使 用 决策 树 模型 依靠 所 有 特征 进行 预测 ,并 作 性 能 评估 。 
>>> fram sklearn.tree import DecisionTreeClassifier 

>>> dt= DecisionTreeClassifier (criterion= 'entropy') 
>>>dt.fit X train, y train) 

»»»dt.score(X test, y test) 

0.817629179331306€97 


>>># MA skleam 导 入 特征 筛选 器 。 

>>> from skleam import feature selection 

>>> + ftii Ai 20% 的 特征 ,使 用 相同 配置 的 决策 树 模 型 进行 预测 ,并 且 评估 性 能 。 
>>> fs feature selecticn.SelectPercentile (feature selecticn.chi2, percentile- 20) 
>>>X_train_fs=fs.fit_transform train, y train) 

»»»dt.fit(X train fs, y train) 

>>>X test fs-fs.transfom(X test) 

»»»dt.score(X test fs, y test) 

0.82370820668693012 


>>># 通 过 交叉 验证 (下 一 节 将 详细 介绍 ) 的 方法 ,按照 固定 间隔 的 百分比 筛选 特征 ,并 作 图 展示 ， 
性 能 随 特 征 筛选 比例 的 变化 。 
>>> from skleam.cross validation import cross val score 

>>> import numpy as np 





»»»percentiles- range(1, 100, 2) 
>>> results [] 


>>> for i in percentiles: 


>>> fs-feature selection.SelectPercentile (feature selection.chi?, percentile= i) 


>>> X train fs-fs.fit transform(X train, y train) 

» Scores-cross val score(dt, X train fs, y train, cv-5) 
>>> Tesults=np.append (results, scores.mean()) 

>>>print results 


>>># 找 到 提现 最 佳 性 能 的 特征 筛选 的 百分比 。 
>>> opt= np.where (results == results.max ()) [0] 
»»»print 'Optimal number of features $d' % percentiles [opt] 


[ 0.85063904 0.85673057 0.87501546 0.88622964 0.86692435  0.86693465 
0.86690373 0.87100598 0.87097506 0.86996496 0.87200577 0.86995465 
0.86997526  0.86183261 0.86690373 0.858792 0.86386312  0.8649423 
0.86283241  0.86286333 0.86384251  0.86384251  0.86895485  0.86488353 
0.86386312 0.86895485  0.86995465 0.87199546  0.86489384  0.86892393 
0.87302618  0.86589363 0.87504638 0.86791383  0.86993403  0.86589363 
0.86590394 0.87404659  0.86487322  0.86895485  0.87301587 0.86285302 
0.8608122  0.86286333 0.86590394 0.86589363 0.86287363 0.8597918 
0.8608122 — 0.86284271] 
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»»» import pylab as pl 

>>> pl.plot (percentiles, results) 

>>> pl.xlabel ("percentiles of features!) 
>>> pl.ylabel ("accuracy") 

»»»pl.show() 


>>># 使 用 最 佳 筛选 后 的 特征 ,利用 相同 配置 的 模型 在 测试 集 上 进行 性 能 评估 。 
>>> from skleam import feature selection 
>>> fs= feature_selection.SelectPercentile (feature selection.chi2, percentile- 7) 


>>>X train fs-fs.fit transform(X train, y train) 
»»»dt.fit(X train fs, y train) 

>>>X test fs- fs.transform(X test) 

»»»dt.score(X test fs, y test) 


0.8571428571428571 _ 


通过 代码 59 中 的 几 个 关键 输出 ,我 们 可 以 总 结 如 下 : 

(1) 经 过 初步 的 特征 处 理 后 ,最 终 的 训练 与 测试 数据 均 有 474 个 维度 的 特征 ; 

(20 如 果 直 接 使 用 全 部 474 个 维度 的 特征 用 于 训练 决策 树 模型 进行 分 类 预测 ,那么 
模型 在 测试 集 上 的 准确 性 约 为 81. 76755 

(3) 如 果 筛 选 前 20% 维 度 的 特征 ,在 相同 的 模型 配置 下 进行 预测 ,那么 在 测试 集 上 表 
现 的 准确 性 约 为 82. 37%; 

(4) 如 果 我 们 按照 固定 的 间隔 采用 不 同 百分比 的 特征 进行 训练 与 测试 ,那么 如 图 3-1 
Biz ,通过 3.1. 3.2 交叉 验证 得 出 的 准确 性 有 着 很 大 的 波动 ,并且 最 好 的 模型 性 能 表现 在 
选取 前 7% 维 度 的 特征 的 时 候 ; 

(5) 如 果 使 用 前 7% 维 度 的 特征 ,那么 最 终 决 策 树 模型 可 以 在 该 分 类 预测 任务 的 测试 
集 上 表现 出 85.71% 的 准确 性 , 比 起 最 初 使 用 全 部 特征 的 模型 性 能 高 出 接近 4 个 百分点 。 
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图 3-1 代码 59 中 ,模型 交叉 验证 的 准确 性 随 特 征 筛选 百分比 的 变化 曲线 


3.1.2. 模型 正则 化 


本 书 一 直 在 向 读者 们 申明 一 个 重要 观点 : 任何 机 器 学 习 模 型 在 训练 集 上 的 性 能 表 
现 ,都 不 能 作为 其 对 未 知 测试 数据 预测 能 力 的 评估 。 并 且 ,我 们 从 最 开始 1. 1 机 器 学 习 综 
述 中 就 向 大 家 强调 过 要 重视 模型 的 泛 化 力 (Generalization) ,只 是 没有 过 多 地 展开 讨论 。 
这 一 节 , 我 们 将 详细 解释 什么 是 模型 的 泛 化 力 ,以 及 如 何 保证 模型 的 泛 化 力 。3. 1. 2. 1 X 
拟 合 与 过 拟 合 将 首先 阑 述 模型 复杂 度 与 泛 化 力 的 关系 ; 紧 接 着 ,3.1.2.27L; 范 数 正则 化 与 
3.1.2. 3 La 范 数 正则 化 将 分 别 介绍 如 何 使 用 这 两 种 正则 化 (Regularization ) 的 方式 来 加 
强 模型 的 泛 化 力 ,避免 模型 参数 过 拟 合 (Overfitting) 。 


欠 拟 合 与 过 拟 合 


所 谓 拟 合 , 是 指 机 器 学 习 模型 在 训练 的 过 程 中 ,通过 更 新 参数 ,使 得 模型 不 断 契 合 可 
观测 数据 (训练 集 ) 的 过 程 。 本 节 , 我 们 将 使 用 一 个 “比萨 饼 价 格 预 测 ” 的 例子 来 说 明 。 如 
K 3-1 所 示 , 美 国 一 家 比萨 饼 店 出 售 不 同 尺 寸 的 比萨 ,其 中 每 种 直径 (Diameter) 都 对 应 一 
个 报价 。 我 们 所 要 做 的 ,就 是 设计 一 个 学 习 模 型 ,可 以 有 效 地 根据 表 3-2 中 比萨 的 直径 特 
征 来 预测 售 价 。 


3.1.2.1 


表 3-1 美国 某 比萨 饼 店 已 知 训练 数据 

















Training Instance Diameter (in inches) Pricelin U. S. dollars) 
1 6 7 
2 8 9 
3 10 13 
4 14 17.5 
5 18 18 








32 美国 某 比萨 饼 店 未 知 测试 数据 


Diameter Cin inches) 





Testing Instance Price(in U. S. dollars) 











1 6 2 
2 8 2 
3 n ? 











4 16 ? 








知 。 根 据 3 


目前 我 们 所 知 ,共有 5 组 训练 数据 ,4 组 测试 数据 ,并 且 其 中 测试 数据 的 比萨 报价 未 
我 们 的 经 验 , 如 果 只 考虑 比萨 的 尺寸 与 售 价 的 关系 ,那么 使 用 线性 回归 模型 比较 





直观 ,如 代码 60 所 示 。 


| 代码 60: 使 用 线性 回归 模型 在 比萨 训练 样本 上 进行 拟 合 
>>># 输 入 训练 样本 的 特征 以 及 目标 值 ,分 别 存储 在 变量 x train 与 y train 之 中 。 


>>>X trair [[6], [8], [10], [14], [18]] 
>>>Y train- [U7], [9], [13], [17.5], [18]] 


>>># 从 skleamn.linear model 中 导入 LinearRegressicn, 
>>> fram sklearn.linear model import LinearRegression 
>>># 使 用 默认 配置 初始 化 线性 回归 模型 。 

>>> regressor- LinearRegression () 

>>>+ 直 接 以 比萨 的 直径 作为 特征 训练 模型 。 

>>> regressor.fit(X train, y train) 


22» FA numpy 并 且 重 命名 为 rp。 

>>> import numpy as rp 

>>># 在 x 轴 上 从 0 至 253] 5] FF 100 个 数据 点 。 
>>> w= np.linspace (0, 26, 100) 

>>> X= xx. reshape (xx.shape[0], 1) 

>>> # 以 上 述 100 个 数据 点 作为 基准 ,预测 回归 直线 。 
>>> yy- regressor.predict (xx) 


>>># 对 回归 预测 到 的 直线 进行 作 图 。 
>>> inport matplotlib.pyplot as plt 
»»»plt.scatter(X train, y train) 


>>>pltl,=plt.plot (xx, yy, label= "Degree- 1") 


»»»plt.axis([0, 25, 0, 251) 
»»»plt.xlabel (Diameter of Pizza") 
>>> plt.ylabel ("Price of Pizza') 
>>> pt. legend (handles= [pit1]) 
>>>plt.shw0 


>>># 输 出 线性 回归 模型 在 训练 样本 上 的 R- squared ff . 





Som HME 


»»»print "The R- squared value of Linear Regressor performing on the training data is', regressor. 
Score(X train, y train) 
The R- squared value of Linear Regressor performing on the training data is 0.910001596424 


根据 代码 60 所 输出 的 图 3-2, 以 及 当前 模型 在 训练 集 上 的 表现 (R-squared ff W 
0. 9100) ,我 们 进一步 猜测 ,也许 比萨 饼 的 面积 与 售 价 的 线性 关系 9 更 加 明显 。 因 此 ,我 们 
试图 将 原 特 征 升 高 一 个 维度 ,使 用 (2 次 ) 多 项 式 回 归 (Polynominal Regression) 对 训练 样 
本 进行 拟 合 ,继续 如 代码 61 所 示 。 
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图 3-2 线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情况 ( 见 彩 图 ) 


| 代码 61: 使 用 2 次 多 项 式 回归 模型 在 比萨 训练 样本 上 进行 拟 合 


>>># 从 skleam.preproessing 中 导 人 多 项 式 特征 产生 器 
>>> frm sklearn.preprocessing import PolynmialFeatures 
>>># 使 用 PolynaninalEeatures (degree- 2) 映 射出 2 次 多 项 式 特 征 ,存储 在 变量 X train poly2 rh, 


O 拓展 小 贴 士 23: 尽管 我 们 在 代码 61 中 依然 使 用 线性 回归 器 作为 模型 基础 ,但 是 由 于 我 们 将 特征 上 升 到 多 项 式 层面 ,因此 通常 我 
们 称 这 类 模型 为 多 项 式 回归 (Polynomial Regression ) 。 





>>> poly2- FolynamialFeatures (degree- 2) 
>>>X train poly2-poly2.fit transfom(X train) 


>>># 以 线性 回归 器 为 基础 ,初始 化 回归 模型 。 尽 管 特征 的 维度 有 提升 ,但 是 模型 基础 仍然 是 线 
性 模型 。 
>>> regressor poly2- LinearRegressicn () 


>>># 对 2 次 多 项 式 回归 模型 进行 训练 。 
>>> regressor poly2.fit(X train poly2, y train) 


>>># 从 新 映射 绘图 用 x 轴 采样 数据 。 
>>> xx poly2- poly2.transform(xx) 


>>># 使 用 2 次 多 项 式 回归 模型 对 应 x 轴 采样 数据 进行 回归 预测 。 
>>> yy poly2- regressor poly2.predict (xx poly2) 


>>># 分 别 对 训练 数据 点 ,线性 回归 直线 .2 次 多 项 式 回归 曲线 进行 作 图 。 
»»»plt.scatter(X train, y train) 


>>>pltl,=plt.plot (xx, yy, label= 'Degree- 1') 
»»»plt2,- plt.plot (xx, yy poly2, label= 'Degree- 2") 


>>>pilt.axis([0, 25, 0, 25]) 

>>> plt.xlabel ("Diameter of Pizza") 
>>> plt.ylabel ("Price of Pizza") 

>>> plt.legend (handles= [pltl, plt2]) 
>>> plt.show() 


>>># 输 出 2 次 多 项 式 回 归 模 型 在 训练 样本 上 的 R- squared (f. 
>>>print "The R- squared value of Polynaminal Regressor (Degree- 2) perfomüng cn the training data is 
', regressor poly2.score(X train poly2, y train) 


The R- squared value of Folynaminal Regressor (Degree= 2) performing on the training data is 
0.98164216396 


果然 ,在 升 高 了 特征 维度 之 后 ,2 次 多 项 式 回 归 模 型 在 训练 样本 上 的 性 能 表现 更 加 突 
出 ,R-squared 值 从 0. 910 上 升 到 0. 982。 并 且 根 据 代码 61 所 输出 的 图 3-3 所 示 ,2 次 多 
项 式 回归 曲线 (绿色 ) 比 起 线性 回归 直线 ( 蓝 色 ) ,对 训练 数据 的 拟 合 程度 也 增加 了 许多 。 
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图 3-3 2 次 多 项 式 回归 与 线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情 况 比较 ( 见 彩 图 ) 
由 此 ,我 们 更 加 大 胆 地 进一步 升 高 特征 维度 ,如 代码 62 所 示 , 增 加 到 4 次 多 项 式 。 


[ kee 使 用 4 次 多 项 式 回归 模型 在 比萨 训练 样本 上 进行 拟 全 


>>># 从 skleam.preprooessing 导 入 多 项 式 特征 生成 器 。 
>>> frm sklearn.preprocessing import PolynmialFeatures 
>>># 初 始 化 4 次 多 项 式 特征 生成 器 。 

>>> poly4= Polynomial Features (degree- 4) 

>>>X train poly4-poly4.fit transform train) 


>>># 使 用 默认 配置 初始 化 4 次 多 项 式 回归 器 。 


>>> regressor poly4- TinearRegressicn () 
>>># 对 4 次 多 项 式 回归 模型 进行 训练 。 
>>> regressor poly4.fit(X train poly4, y train) 


>>># 从 新 映射 绘图 用 x 轴 采样 数据 。 

>>> xx_poly4= poly4.transfom(xx) 

>>># 使 用 4 次 多 项 式 回归 模型 对 应 x 轴 采 样 数据 进行 回归 预测 。 
>>> yy poly&- regressor_poly4.predict (xx poly4) 








>>># 分 别 对 训练 数据 点 .线性 回归 直线 、2 次 多 项 式 以 及 4 次 多 项 式 回归 曲线 进行 作 图 。 
>>>plt.scatter X train, y train) 

»»»pltl,-plt.plot (xx, yy, label= 'Degree- 1") 

>>>plt2,=plt.plot (a, yy poly2, label= 'Degree- 2") 


»»»plt4,-plt.plot(xx, yy poly4, label= 'Degree- 4") 
»»»plt.axis (I0, 25, 0, 251) 

»»»plt.xlabel ("Diameter of Pizza") 

»»»plt.ylabel ("Price of Pizza") 

>>>plt.legend (handles= [pltl, plt2, plt4]) 
>>>plt.show() 


>>> print "The R- squared value of Polynaminal Regressor (Degree- 4) performing cn the training data is 


',regressor poly4.score(X train poly4, y train) 
‘The R- squared value of Polynaminal Regressor (Degree- 4) performing on the training data is 1.0 


如 图 3-4 所 示 , 4 次 多 项 式 曲线 几乎 完全 拟 合 了 所 有 的 训练 数据 点 ,对 应 的 


R-squared 值 也 为 1. 0。 但 是 ,如 果 这 时 觉得 已 经 找到 了 完美 的 模型 ,那么 显然 是 高 兴 过 
RT. 
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图 3-4 4 次 多 项 式 回归 与 其 他 模型 在 比萨 训练 样本 上 的 拟 合 情 况 比较 


表 3-3 揭示 了 测试 比萨 的 真实 价格 。 
表 3-3 美国 某 比萨 饼 店 真实 测试 数据 

















Testing Instance Diameter (in inches) Price(in U. S. dollars) 
1 6 8 
2 8 12 
3 ll 15 
4 16 18 











[ ts. 评估 3 种 回归 模型 在 测试 数据 集 上 的 性 能 表现 


>>># 准 备 测试 数据 。 
>>>X test- [[6], [8], [11], [16]] 
>>>Y test- [[8], [12], [15], [18]] 


>>> RE GUCCI XE ER PE [SLE BUS 09 Pe E ETT VEG o 
»»»regressor.score(X test, y test) 
0.80972683246686095 


>>># 使 用 测试 数据 对 2 次 多 项 式 回归 模型 的 性 能 进行 评估 。 
»»»X test poly2- poly2.transform(X test) 

>>> regressor poly2.score(X test poly2, y test) 
0.86754436563450543 


>>># 使 用 测试 数据 对 4 次 多 项 式 回归 模型 的 性 能 进行 评估 。 
>>>X test poly4-poly4.transform(x test) 

>>> regressor poly4.score(X test poly4, y test) 
0.8095880795781909 


zi 


如 果 我 们 使 用 代码 63 评估 上 述 3 种 模型 在 测试 集 上 的 表现 ,并 将 输出 对 比 之 前 在 训 
练 数据 上 的 拟 合 情 况 , 制 成 表 3-4; 最 终 的 结果 却 令 人 咋舌 : 当 模 型 复杂 度 很 低 (Degree 一 
了 D) 时 ,模型 不 仅 没有 对 训练 集 上 的 数据 有 良好 的 拟 合 状态 .而 且 在 测试 集 上 也 表现 平平 ， 
这 种 情况 叫做 从 拟 合 (Underfitting); 但 是 , 当 我 们 一 味 追 求 很 高 的 模型 复杂 度 (Degree 一 
4) ,尽管 模型 几乎 完全 拟 合 了 所 有 的 训练 数据 ,但 如 图 3-4 所 示 , 模 型 也 变 得 非常 波动 , 几 
乎 丧失 了 对 未 知 数据 的 预测 能 力 , 这 种 情况 叫做 过 拟 合 (Overfitting)。 这 两 种 情况 都 是 


缺乏 模型 泛 化 力 的 表现 。 


表 3-4 美国 某 比萨 饼 店 真实 测试 数据 














TRES ARE WAKE R-squared fff 测试 集 R-squared fË 
Degree=1 0. 9100 0. 8097 
Degree=2 0, 9816 0. 8675 
Degree=4 1. 0000 0. 8096 











由 此 可 见 ,虽然 我 们 不 断 追 求 更 好 的 模型 泛 化 力 ,但 是 因为 未 知 数据 无 法 预测 ,所 以 
又 期 望 模型 可 以 充分 利用 训练 数据 ,避免 欠 拟 合 。 这 就 要 求 在 增加 模型 复杂 度 .提高 在 可 
观测 数据 上 的 性 能 表现 的 同时 ,又 需要 兼顾 模型 的 泛 化 力 ,防止 发 生 过 拟 合 的 情况 。 为 了 
平衡 这 两 难 的 选择 ,我 们 通常 采用 两 种 模型 正则 化 的 方法 ,分 别 是 3.1.2. 2 La 范 数 正则 
化 与 3.1.2.3 Le 范 数 正则 化 。 


3.1.2.2 LËRE 


正则 化 (Regularization) 的 目的 在 于 提高 模型 在 未 知 测试 数据 上 的 泛 化 力 , 避 免 参数 
过 拟 合 。 由 上 一 节 的 “比萨 饼 价格 预测 ”的 例子 可 以 看 出 ,2 次 多 项 式 回归 是 相对 较 好 的 
模型 假设 。 之 所 以 出 现 如 4 次 多 项 式 那 样 的 过 拟 合 情景 ,是 由 于 4 次 方 项 对 应 的 系数 过 
大 ,或 者 不 为 0 所 导致 。 

因此 ,正则 化 的 常见 方法 都 是 在 原 模型 优化 目标 的 基础 上 ,增加 对 参数 的 惩罚 
(Penalty) 项 。 以 我 们 在 2. 1. 2. 1 线性 回归 器 一 节 中 介绍 过 的 最 小 二 乘 优化 目标 为 例 ( 参 
AX O3) ,如 果 加 入 对 模型 的 La 范 数 正则 化 ,那么 新 的 线性 回归 目标 如 式 (20) 所 示 。 

argmin L(w.b)— argnin S. (f (wr xb)— y} A wills (20) 

也 就 是 说 ,在 原 优化 目标 的 基础 上 ,增加 了 参数 向 量 的 工 ; 范 数 。 如 此 一 来 ,在 新 目标 优化 
的 过 程 中 ,也 同时 需要 考量 L, 惩罚 项 的 影响 。 为 了 使 目标 最 小 化 ,这 种 正则 化 方法 的 结 
果 会 让 参数 向 量 中 的 许多 元 素 趋向 于 0, 使 得 大 部 分 特征 失去 对 优化 目标 的 贡献 。 而 这 
种 让 有 效 特征 变 得 稀疏 (Sparse) 的 Ly 正则 化 模型 ,通常 被 称 为 Lasso。 

接 下 来 ,代码 64 让 我 们 在 上 一 节 例 子 的 基础 上 ,继续 使 用 4 次 多 项 式 特征 ,但 是 换 成 
Lasso 模型 检验 L, 范 数 正 则 化 后 的 性 能 和 参数 。 


| 代码 64: Lasso 模型 在 4 次 多 项 式 特征 上 的 拟 合 表现 
>>># 从 skleam.linear model 中 导入 Lasso. 
>>> fram sklearn.linear model import Lasso 


>>># 从 使 用 默认 配置 初始 化 Lasso. 

>>> lasso polyt-Iasso() 

>>># 从 使 用 Lasso Xt 4 次 多 项 式 特征 进行 拟 合 。 
>>> lasso poly4.fit x train poly4, y train) 


>>># 对 Iasso 模 型 在 测试 样本 上 的 回归 性 能 进行 评估 。 
>>>print lasso poly4.score(X test poly4, y test) 
0.83889068736 


>>># 输 出 Iasso 模 型 的 参数 列表 。 
>>>print lasso poly4.coef - 


【0.00000000e+r 00 0.00000000e+ 001.17900534e- O1 — 5.42646770e- 05 
~2.23027128e- 04] 


>>> + 回顾 普通 4 次 多 项 式 回归 模型 过 拟 合 之 后 的 性 能 。 
>>> print regressor poly4.score(X test poly4, y test) 


0.809588079578 


>>># 回 顾 普通 4 次 多 项 式 回归 模型 的 参数 列表 。 
>>> print regressor poly4.coef - 


[E 0.00000000e 00 -2.51739583e+ OL 。 3.68906250er 00 - 2.12760417e- Ol 
4.29687500e- 03]] J 
通过 对 代码 64 一 系列 输出 的 观察 ,验证 了 我 们 所 介绍 的 Lasso 模型 的 一 切 特点 : 
CD 相 比 于 普通 4 次 多 项 式 回归 模型 在 测试 集 上 的 表现 ,默认 配置 的 Lasso 模型 性 

能 提高 了 大 约 3%; 

(2) 相 较 之 下 ,Lasso 模型 拟 合 后 的 参数 列表 中 ,4 次 与 3 次 特征 的 参数 均 为 0. 0, 使 

FERE iE EC Fai ht 。 


3.1.2.3. L,s& SE RUE 


53 Ly 范 数 正则 化 略 有 不 同 的 是 , Le 范 数 正则 化 则 在 原 优化 目标 的 基础 上 ,增加 了 参 
BCT ALAS Lo 范 数 的 惩罚 项 ,如 公式 (21) 所 示 。 为 了 使 新 优化 目标 最 小 化 ,这 种 正则 化 方 





法 的 结果 会 让 参数 向 量 中 的 大 部 分 元 素 都 变 得 很 小 ,压制 了 参数 之 间 的 差异 性 。 而 这 种 


压制 参数 之 间 差 异性 的 工 ; 正则 化 模型 ,通常 被 称 为 Ridge. 


rool 


argmin L (w+b) = argmin >, Cf Qw-kb)— y) +A | |w] [2 


(21) 


接 下 来 ,代码 65 让 我 们 在 3.1.2. 1 从 拟 合 与 过 拟 合 一 节 例子 的 基础 上 ,继续 使 用 4 


次 多 项 式 特征 ,但 是 换 成 Ridge 模型 检验 Lo 范 数 正则 化 后 的 性 能 和 参数 。 


[ts 65: Ridge 模型 在 4 次 多 项 式 特征 上 的 拟 合 表现 


>>>+ 输 出 普通 4 次 多 项 式 回归 模型 的 参数 列表 。 

>>> print regressor Poly4.coef 

[C 0.00000000e+ 00 -2.51739583e+ 01 3.68906250e+00 -2.12760417e- 01 
4.296875006- 03]] 


>>># 输 出 上 述 这 些 参 数 的 平方 和 ,验证 参数 之 间 的 巨大 差异 。 
>>>print np.sum(regressor Poly4.coef * * 2) 
647382645692 


>>># 从 sklearn.linear model 导入 Ridge, 
>>> from sklearn.linear model import Ridge 
>>># 使 用 默认 配置 初始 化 Riede. 

>>> ridge poly Ridge 0 


>>> EFI Ridge 模 型 对 4 次 多 项 式 特征 进行 拟 合 。 
>>> ridge poly4.fit(X train poly4, y train) 


>>>+ 输 出 id 模型 在 测试 样本 上 的 回归 性 能 。 
»»»print ridge Poly4.score test poly4, y test) 

0.837420175937 

>>>+4 输 出 Ri 模型 的 参数 列表 ,观察 参数 差异 。 

>>>print rid poly4.coef_ 

[ 0. —0.00492536 0.12439632 -0.00046471 — 0.00021205]] 


>>># 计 算 Ridge 模 型 拟 合 后 参数 的 平方 和 。 
>>>print mp.sum(ridge poly4.coef * * 2) 
0.0154989652036 


通过 我 们 对 代码 65 一 系列 输出 的 观察 ,可 以 验证 Ridge 模型 的 一 切 特点 : 


CD 相 比 于 普通 4 次 多 项 式 回归 模型 在 测试 集 上 的 表现 ,默认 配置 的 Ridge 模型 性 
能 提高 了 近 3%; 

(2) 与 普通 4 次 多 项 式 回 归 模 型 不 同 的 是 ,Ridge 模型 拟 合 后 的 参数 之 间 差 异 非 
常 小 。 

这 里 需要 额外 指出 的 是 ,不 论 是 公式 (20) 还 是 公式 (21) 中 的 惩罚 项 ,都 会 有 一 个 因子 
4 进行 调节 。 尽 管 4 不 属于 需要 拟 合 的 参数 , 却 在 模型 优化 中 扮演 非常 重要 的 角色 。 具 体 
对 4 的 解读 ,我 们 会 留待 后 续 的 章节 。 


3.1.3 模型 检验 


在 前 面 的 章节 中 ,时 不 时 地 提 到 模型 检验 或 者 交叉 验证 等 词汇 ,特别 是 在 对 不 同 模型 
的 配置 ,不同 的 特征 组 合 ,在 相同 的 数据 和 任务 下 进行 评价 的 时 候 。 究 其 原因 ,相信 很 多 
读者 通过 阅读 前 面 的 章节 ,已 经 感受 到 仅仅 使 用 默认 配置 的 模型 与 不 经 处 理 的 数据 特征 ， 
在 大 多 数 任务 下 是 无 法 得 到 最 佳 性 能 表现 的 。 因 此 ,在 最 终 交 由 测试 集 进行 性 能 评估 之 
前 ,我 们 自然 希望 可 以 尽 可 能 利用 手头 现 有 的 数据 对 模型 进行 调 优 ,甚至 可 以 粗略 地 估计 
测试 结果 。 

在 这 里 需要 强调 的 是 : 尽管 本 书 在 许多 章节 中 所 使 用 的 测试 数据 是 由 我 们 从 原始 数 
据 中 采样 而 来 ,并 且 多 数 知晓 测试 的 正确 结果 ;但 是 这 仅仅 是 为 了 学 习 和 模拟 的 需要 。 
些 初学 者 因此 经 常 拿 着 测试 集 的 正确 结果 反复 调 优 模型 与 特征 ,从 而 可 以 发 现在 测试 集 
上 表现 最 佳 的 模型 配置 和 特征 组 合 。 这 是 极其 错误 的 行为 ! 

事实 上 , 当 读 者 翻阅 至 第 4 章 , 并 且 真正 在 竞赛 平台 上 实践 机 器 学 习 任 务 时 就 会 发 
现 ,您 只 可 以 提交 预测 结果 ,并 不 可 能 知晓 正确 答案 。 如 果 更 加 严格 一 些 ,只 给 大 家 一 次 
提交 预测 结果 的 机 会 ,那么 我 们 更 不 可 能 期 待 借助 测试 集 “ 动 手脚 "。 这 就 要 求 我 们 充分 
地 使 用 现 有 数据 ,并 且 通 常 的 做 法 依然 是 对 现 有 数据 进行 采样 分 割 : 一 部 分 用 于 模型 参 
数 训练 ,叫做 训练 集 (Training set) ; 另 一 部 分 数据 集合 用 于 调 优 模型 配置 和 特征 选择 ,并 
且 对 未 知 的 测试 性 能 做 出 估计 ,叫做 开发 集 (Development set) 或 者 验证 集 (Validation 
set)9。 根 据 验证 流程 复杂 度 的 不 同 ,模型 检验 方式 分 为 3. 1. 3. 1 留 一 验证 与 3. 1. 3. 2 交 
叉 验 证 。 


O 拓展 小 贴 士 24: 如 果 读 者 在 量化 投资 公司 从 事 股 票 预 测 研究 ,你 所 能 获取 的 永远 是 过 去 股票 价格 的 走势 ,未 来 的 股票 价格 永远 是 
所 设计 模型 的 测试 ,并 且 机 会 只 有 一 次 。 虽 然 可 以 借 由 过 去 的 股票 价格 对 模型 进行 调 优 ,但 是 这 不 代表 自 认为 通过 验证 的 优质 模型 一 定 
可 以 在 未 来 的 股票 市 场 大 赚 一 笔 。 要 对 未 来 抱 有 一 颗 “ 虔 诚 "的 心 ,因为 不 会 知道 最 适合 测试 的 模型 配置 和 特征 组 合 ;你 所 能 做 的 ,只 能 是 


相信 当下 所 验证 的 ,并 把 剩 下 的 一 切 交 给 时 运 。 


3.1.3.1 留 一 验证 


留 一 验证 (Leave-one-out cross validation) 最 为 简单 ,就 是 从 任务 提供 的 数据 中 ,随机 
采样 一 定 比例 作为 训练 集 , 剩 下 的 “ 留 做 "验证 。 通 常 ,我 们 取 这 个 比例 为 7:3, 即 70% 作 
为 训练 集 , 剩 下 的 30% 用 做 模型 验证 。 不 过 ,通过 这 一 验证 方法 优化 的 模型 性 能 也 不 稳 
定 , 原 因 在 于 对 验证 集合 随机 采样 的 不 确定 性 。 因 此 ,这 一 方法 被 使 用 在 计算 能 力 较 弱 ， 
而 相对 数据 规模 较 大 的 机 器 学 习 发 展 的 早期 。 当 我 们 拥有 足够 的 计算 资源 之 后 ,这 一 验 
证 方法 进化 成 为 更 加 高 级 的 版 本 : 交叉 验证 。 


3.1.3.2 交叉 验证 


交叉 验证 (K-fold cross-validation) 可 以 理解 为 从 事 了 多 次 留 一 验证 的 过 程 。 只 是 需 
要 强调 的 是 ,每 次 检验 所 使 用 的 验证 集 之 间 是 互 斥 的 ,并 且 要 保证 每 一 条 可 用 数据 都 被 模 
型 验证 过 。 因 此 ,就 以 5 折 交 叉 验证 (Five-fold cross-validation) H fil AF 3-5 所 示 。 
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图 3-5 5 折 交 叉 验证 过 程 示例 ,图 片 来 自 于 互联 网 了 


全 部 可 用 数据 被 随机 分 割 为 平均 数量 的 5 组 ,每 次 近代 都 选取 其 中 的 1 组 数据 作为 
验证 集 , 其 他 4 组 作为 训练 集 。 

交叉 验证 的 好 处 在 于 ,可 以 保证 所 有 数据 都 有 被 训练 和 验证 的 机 会 ,也 尽 最 大 可 能 让 
优化 的 模型 性 能 表现 得 更 加 可 信 。 


3.1.4. 超 参数 搜索 


前 面 所 提 到 的 模型 配置 我们 一 般 统 称 为 模型 的 超 参数 (Hyperparameters) , Ml K 近 
邻 算 法 中 的 K 值 .支持 向 量 机 中 不 同 的 核 函 数 (Kernal) 等 。 多 数 情况 下 , 超 参 数 的 选择 
是 无 限 的 。 因 此 在 有 限 的 时 间 内 ,除了 可 以 验证 人 工 预 设 几 种 超 参 数组 合 以 外 ,也 可 以 通 
过 启发 式 的 搜索 方法 对 超 参数 组 合 进行 调 优 。 我 们 称 这 种 启发 式 的 超 参数 搜索 方法 为 


QD http://stackoverflow. com/questions/31947183/how-to-implement-walk-forward-testing-in-sklearn 


3.1.4. 1 网 格 搜索 。 同 时 由 于 超 参 数 的 验证 过 程 之 间 彼 此 独立 ,因此 为 并 行 计算 提供 了 
可 能 ,3.1.4.2 并 行 搜索 一 节 将 向 读者 展示 如 何在 不 损失 搜索 精度 的 前 提 下 ,充分 利用 多 
核 处 理 器 成 倍 节约 计算 时 间 。 


3.1.4.1 网 格 搜 索 


由 于 超 参 数 的 空间 是 无 尽 的 ,因此 超 参数 的 组 合 配置 只 能 是 “更 优 ? 解 ,没有 最 优 解 。 
通常 情况 下 ,我 们 依靠 网 格 搜索 0(GridSearch) 对 多 种 超 参 数组 合 的 空间 进行 暴力 搜索 。 
每 一 套 超 参 数组 合 被 代入 到 学 习 函 数 中 作为 新 的 模型 ,并 且 为 了 比较 新 模型 之 间 的 性 能 ， 
每 个 模型 都 会 采用 交叉 验证 的 方法 在 多 组 相同 的 训练 和 开发 数据 集 下 进行 评估 。 以 代码 
66 为 例 。 


[eas 使 用 单线 程 对 文本 分 类 的 朴素 贝 叶 斯 模型 的 超 参数 组 合 执行 网 格 搜索 


>>># 从 skleam.datasets HFA 20 类 新 闻 文 本 抓 取 器 。 
>>> from skleam.datasets import fetch 20newsgroups 
>>># 导 人 mmpy, 并 且 重 命名 为 np。 

>>> import numpy as np 


>>>+# 使 用 新 闻 抓 取 器 从 互联 网 上 下 载 所 有 数据 ,并 且 存 储 在 变量 news 中 。 
>>> news fetch 20newsgroups (subset- 'all') 


>>># 从 skleam.cross validation A train test_split 用 来 分 割 数据 。 
>>> from sklearn.cross validation import train test split 


>>># 对 前 3000 条 新 闻 文 本 进行 数据 分 制 ,258 文 本 用 于 未 来 测试 。 
>>>X train, X test, y train, y test-train test split (news.data[:3000], 
news.target[:3000], test size- 0.25, randan_state= 33) 


>>># 导 人 支持 向 量 机 (分 类 ) 模 型 。 

>>> fram sklearn.sum import SVC 

>>># 导 入 Tfidfvectorizer 文 本 抽取 器 。 

>>> frm skleam.featune_extraction.text import TfidfVectorizer 


进 阶 篇 fus 


O 拓展 小 贴 士 25: 虽然 作者 没有 查阅 这 一 名 称 的 来 历 ,但 是 这 的 确 是 一 种 非常 形象 的 措辞 。 如 果 人 工 处 理 所 有 可 能 的 超 参数 组 合 ， 
通常 的 办 法 便 是 根据 超 参数 的 维度 , 列 成 相应 的 网 格 。 对 于 每 个 格子 中 具体 的 超 参数 组 合 ,通过 交叉 验证 的 方式 进行 模型 性 能 的 评估 。 


最 后 通过 验证 性 能 的 比较 , 逻 选 出 最 佳 的 超 参 数 数据 组 合 。 


3 Phham 机 器 学 习 及 实践 





>>># FA Pipeline, 
>>> fram sklearn.pipeline import Pipeline 


>>># 使 用 Pipeline? 简化 系统 搭建 流程 ,将 文本 抽取 与 分 类 器 模型 串联 起 来 。 
>>> clf= Pipeline ([ (‘vect', TfidfVectorizer (stop words- 'english', analyzer- 
"word')), ('sve', SVC())]) 


>>># 这 里 需要 试验 的 2 个 超 参数 的 个 数 分 别 是 4.3，svc_gemma 的 参数 共有 107-2, 107-1... 。 这 
样 我 们 一 共有 12 种 的 超 参 数组 合 ,12 个 不 同 参数 下 的 模型 。 
>>> parameters= ('svc gamma': np.logspace(-2, 1, 4), 'svc C': rp.logspace(- 1, 1, 3)} 


>>>#JA skleam.grid search 中 导 和 人 网 格 搜索 模块 Gridsearchcv。 
>>> from sklearn.grid search import Gridsearchcv 


>>># 将 12 组 参数 组 合 以 及 初始 化 的 Pipline 包 括 3 折 交 叉 验证 的 要 求全 部 告知 criasearchcy, ME 
大 家 务必 注意 refite True 这 样 一 个 设 定 @。 i 
>>> gs= GridSearchcv(clf, parameters, verbose- 2, refit- True, c= 3) 


>>>+ 执行 单线 程 网 格 搜索 。 
>>>%time -gs.fit(X train, y train) 
»»»gs.best params , gs.best score - 


>>>+ 输 出 最 佳 模型 在 测试 集 上 的 准确 性 。 
>>>Print gs.score(X test, y test) 


Fitting 3 folds for each of 12 candidates, totalling 36 fits 


[Cv] svc. game-0.01, svc_C=0.1 nesses eH Hm e Hn eH 
I] eee m e SUC Game 0.01, svc O-0.1- 5.35 
[CV] svc_game= 0.01, svc. O-0.1 ...... enhn nnn nm 


O BRM 26. 在 读者 已 经 全 面 了 解 如 何 使 用 Scikit-learn 从 零 搭建 机 器 学 习 系 统 之 后 ,推荐 大 家 使 用 Pipeline 来 简化 代码 ,具体 
的 使 用 方式 可 以 参考 http: //scikit-learn. org/stable/modules/pipeline. html # pipeline-chaining-estimators 

Q ”拓展 小 贴 士 27: 在 交叉 验证 获取 最 佳 的 超 参 数 过 程 中 ,如 果 设 定 refit 一 True, 那 么 程序 将 会 以 叉 验 训练 集 得 到 的 最 佳 超 参数 , 重 
新 对 所 有 可 用 的 训练 集 与 开发 集 进行 ,作为 最 终 用 于 性 能 评估 的 最 佳 模型 的 参数 。 这 是 一 个 标准 的 流程 ,请 读者 参考 。 





[CV] .oeeseveeee "— svc gamm-0.0], svc O-0.1- 5.65 
[CV] svc_genme= 0.01, svc O-0.1 
Im... svc gamm-0.01, svc O-0.1- 5.55 
[CV] svc. game-0.1, svc O-0.1 
[TT — 

















^. SVc gamm-10.0, svc O-0.1- 5.38 
[cV] svc_ganme= 10.0, vc O-0.1.. 






[CV] sve_game= 0.01, svc O-1.0 
[cm .. . SvC_game=0.01, vc O-1.0- 4.95 
[cV] svc. gamm-0.01, s.c O-1.0 
Ion ov sees SVc gamm-0.01, svc O-1.0- 5.0s 
[Cv] svc gamm-0.01, svc O-1.0 
[cm -.Svc gamm-0.01, svc O-1.0- 5.1s 
[CV] svc. game-0.1, svc O-1.0 




























[cV] svc. gamg-0.1, SVC_O=1.0 sss een n 
[EE — sv game-0.l sv; O-1.0-  5.3s 
[Cv] svc_ganme=1.0, svc O-1.0 
[OV] «eren III. SV gamme1.0, sc O-1.0- 5.1s 
[Cv] svc_game=1.0, vc CO-1 








$us; Pyho 机 器 学 习 及 实践 


[CV] svc. game-1.0, svc. C-1.0 ........... € m 

[OV] wreeeesceveeees nm ^e. SVC gamm-1.0, svc O-1.0- —5.3s 
[CV] svc. game-10.0, Svc O-1.0 ov 
[OV] —X svc game-10.0, svc O-1 





[CV] se game-10.0, Svc O-1.0 .ev 
Svc gamm-10.0, svc O-1. 
[CV] svc game-0.01, svc 0-10.0 ........... eene 
[cm . ++ SvC_gamme= 0.01, svc O-10.i 
[CV] svc. game-0.0l, SVC__OF 10.0 oo 
[cv . ++ v_a 0.01, svc O-10.! 
[CV] se game-0.01, svc 0710.0 ....... een nn 
KJ] ee eee eere eee ooo ooo ooo svc gamm-0.01, se O-10.0- 5.15 
[CV] se game-0.1, Svc 0710.0 ........ eee nn 





























[CV] sesoses ee cccccccccccccccccs. Svc_gamme= 10.0, svc O-10.0- 5.55 


KW]svc game-10.0, Svc O-10.0 ......... e 
[CV] ..eeeee ee. SUC gammm-10.0, svc O-10.0-  5.4s 








Wall time: min 23s 
0.822666666667 
(Parallel (n jdbs-1)]: Done 36 out of 36| elapsed: 3.2min finished 


代码 66 的 输出 说 明 : 使 用 单线 程 的 网 格 搜索 技术 对 朴素 贝 叶 斯 模型 在 文本 分 类 任 


务 中 的 超 参 数组 合 进行 调 优 ,共有 12 组 超 参数 X3 折 交 叉 验 证 = 36 项 独立 运行 的 计算 任 
务 。 该 过 程 一 共 进行 了 3 分 23 秒 , 寻 找到 的 最 佳 的 超 参 数组 合 在 测试 集 上 所 能 达成 的 最 
高 分 类 准确 性 为 82. 27%。 


3.1.4.2 ”并行 搜索 


尽管 采用 网 格 搜索 结合 交叉 验证 的 方法 ,来 寻找 更 好 超 参数 组 合 的 过 程 非常 耗 时 ; 然 
而 ,一 旦 获取 比较 好 的 超 参 数组 合 , 则 可 以 保持 一 段 时 间 使 用 。 因 此 这 是 值得 推荐 并 且 相 
对 一 劳 永 逸 的 性 能 提升 方法 。 更 可 喜 的 是 ,由 于 各 个 新 模型 在 执行 交叉 验证 的 过 程 中 间 
是 互相 独立 的 ,所 以 我 们 可 以 充分 利用 多 核 处 理 器 (Multicore processor) 甚 至 是 分 布 式 的 
计算 资源 来 从 事 并 行 搜 索 (Parallel Grid Search) ,这 样 能 够 成 倍 地 节省 运算 时 间 。 让 我 
们 对 代码 66 中 超 参 数 搜索 的 过 程 略 作 修 改 , 蔡 换 为 代码 67 中 的 并 行 搜索 ,看 看 会 有 怎样 
的 效率 提升 。 


[ 代码 67: 使 用 多 个 线程 对 文本 分 类 的 朴素 贝 叶 斯 模型 的 超 参数 组 合 执行 并 行 化 
的 网 格 搜索 

>>># 从 skleam.datasets 中 导入 20 类 新 闻 文本 抓 取 器 。 

>>> from skleam.datasets import fetch 20newsgroups 

22» SA mmpy, 并 且 重 命名 为 np。 

>>> import numpy as np. 


>>># 使 用 新 闻 抓 取 器 从 互联 网 上 下 载 所 有 数据 ,并 且 存 储 在 变量 news 中 。 
>>> news= fetch 20newsgroups (subset- 'all') 


>>># 从 skleam.cross validation 导 入 train test split 用 来 分 割 数据 。 
>>> frm skleam.cross validation import train test split 


>>># 对 前 3000 条 新 闻 文 本 进行 数据 分 割 ,258 文 本 用 于 未 来 测试 。 
>>>X train, X test, y train, y test= train test split (news.data[:3000], news.tanget[:3000], test_ 


size= 0.25, randm state- 33) 


>>># 导 人 支持 向 量 机 (分 类 ) 模 型 。 
>>> fran skleam.svm import SVC 


>>> 4 À Tfidfvectorizer 文 本 抽取 器 。 





的 超 参 数组 合 进行 调 优 ,执行 同样 的 36 项 计算 任务 


>>> fran skleam. feature extraction.text import TFidfVectorizer 
>>># FA Pipeline, 
>>> fram skleam.pipeline import Pipeline 


>>># 使 用 Pipeline 简化 系统 搭建 流程 ,将 文本 抽取 与 分 类 器 模型 串联 起 来 
>>> cli Pipeline([ (‘vect', TfidfVectorizer(stop words- 'english', analyzer- 
"word!)), ('sve", SVc0)1) 


>>># 这 里 需要 试验 的 2 个 超 参数 的 个 数 分 别 是 4.3，svc_gama 的 参数 共有 107-2, 10^ 
-1.… 。 这 样 我 们 一 共有 12 种 的 超 参 数组 合 ,12 个 不 同 参数 下 的 模型 。 
»»»parameters- ('svc gamma': rp.logspace(- 2, 1, 4), 'svc C': mp.logspace(-1, 1, 3)} 


>>># 从 skleam.grid search 中 导入 网 格 搜索 模块 Gridsearchcv。 
>>> from sklearn.grid search import GridSearchcv 


>>>+ 初 始 化 配置 并 行 网 格 搜索 ,n jcbe= -1 代表 使 用 该 计算 机 全 部 的 cov. 
>>> gs- Gridsearchcv(clf, parameters, verbose- 2, refit- True, cv-3, n jdbs-- 1) 


>>># 执 行 多 线程 并 行 网 格 搜索 。 
>>>%time -gs.fit(X train, y train) 
»»»gs.best params , gs.best score - 


>>>+ 输 出 最 佳 模型 在 测试 集 上 的 准确 性 。 
>>>Print gs.score(X test, y test) 


Fitting 3 folds for each of 12 candidates, totalling 36 fits 

Wall time: 51.8 s 

0.822666666667 

[Parallel(n jdos--1)]: Dne 36outof 36| elapsed: 42.7s finished 


m 


同样 是 网 格 搜索 ,使 用 多 线程 线 并 行 搜索 技术 对 朴素 贝 叶 斯 模型 在 文本 分 类 任务 中 


- 共 只 花费 了 51. 8 秒 ,寻找 到 的 最 佳 


的 超 参数 组 合 在 测试 集 上 所 能 达成 的 最 高 分 类 准确 性 依然 为 82. 27%。 我 们 发 现在 没有 


O 拓展 小 贴 士 28: 在 全 面 了 解 如 何 使 用 sklearn 从 零 搭建 机 器 学 习 系 统 之 后 ,作者 推荐 大 家 使 用 Pipeline 来 简化 代码 ,具体 的 使 用 
方式 可 以 参考 http://scikit-learn. org/stable/modules/pipeline. html # pipeline-chaining-estimators. 


影响 验证 准确 性 的 前 提 下 ,通过 并 行 搜索 基础 有 效 地 利用 了 4 核心 (CPU) 的 计算 资源 , 几 
乎 4 倍 地 提升 了 运算 速度 ,节省 了 最 佳 超 参数 组 合 的 搜索 时 间 。 


n 32 流行 库 / 异 型 实践 


本 书 重点 介绍 的 Scikit-learn 几乎 赛 括 了 所 有 机 器 学 习 领域 的 经 典 模型 。 掌 握 这 些 
模型 对 于 初学 者 来 讲 是 十 分 必要 的 。 然 而 ,许多 从 业者 却 更 加 热衷 于 那些 尽管 描述 复杂 
但 是 功能 强大 、 性 能 强劲 的 新 模型 ,教科 书 中 的 经 典 显然 无 法 满足 他 们 的 胃口 。 机 器 学 习 
方法 之 所 以 能 够 在 短 短 十 几 年 间 成 为 计算 机 科学 领域 炙手可热 的 研究 话题 ", 并 且 广 泛 
应 用 于 现实 生活 中 的 方方面面 ,很 大 程度 上 受 惠 于 其 极 高 的 成 果 转 化 率 。 大 量 描述 新 模 
型 的 论文 一 经 发 表 , 便 会 立刻 被 各 大 业界 公司 、 科 研 机 构 所 关注 。 一 旦 这 些 新 模型 被 证 明 
可 以 为 商业 系统 取得 更 高 的 性 能 、 获 得 更 多 的 盈利 ,那么 就 会 有 编程 爱好 者 参与 进来 从 事 
开源 代码 的 开发 ,甚至 有 些 会 被 封装 为 工具 包 供给 更 多 的 人 使 用 。 

本 节 会 列举 几 个 比较 成 功 的 案例 : 用 于 自然 语言 (文本 ) 处 理 的 工具 包 NLTK; 量 化 
词汇 语义 相似 度 的 词 向 量 (Word2Vec) 技 术 ; 比 许多 经 典 集成 模型 的 性 能 表现 更 加 强劲 
的 XGBoost; 其 至 Google 最 新 发 布 的 深度 学 习 框架 Tensorflow。 我 们 将 介绍 这 些 时 下 
流行 的 编程 库 / 工 具 包 的 功能 ,指导 大 家 如 何 配 置 和 使 用 他 们 ,并 且 给 出 对 应 的 Python f& 
码 样 例 。 

鉴于 本 节 中 所 介绍 的 大 多 数 编程 库 暂 时 不 支持 Windows 7 SP1 64 位 操作 系统 平台 ， 
因此 我 们 只 提供 在 Mac OS 上 的 配置 步骤 : 

(1) 先 去 Anaconda 官网 下 载 MAC OS Python 2.7 64bit 的 版 本 ,并 且 按 照 默认 配置 
点 选 安装 。 如 果 安 装 成 功 ,在 Terminal 中 默认 的 Python 解释 器 环境 会 被 Anaconda [137 
的 环境 覆盖 ,重新 启用 Python 将 如 图 3-6 所 示 。 我 们 可 以 发 现 ,新 的 Python 解释 器 与 
图 3-6 中 Mac OS 自 带 的 Python 解释 器 环境 略 有 不 同 。 











[Jieleis-MBP:- jieleizhu$ python 

Python 2.7.11 |Anaconda 2.4.1 (x86 64)| (default, Dec 6 2015, 18:57:58) 
[GCC 4.2.1 (Apple Inc. build 5577)] on darwin 

Type "help*, "copyright", "credits" or "license" for more information 
Anaconda is brought to you by Continuum Analytics. 

Please check out: http://continuum.io/thanks and https://anaconda.org 





图 3-6 成 功 安装 Anaconda 后 的 Mac OS Python 2.7. x 解释 器 样 例 


D http://www. computerworld, com/article/2542247 / it-careers/ 12-it-skills-that-employers-can-t-say-no-to. html. 





(2) 接着 请 读者 在 Terminal 下 运行 代码 68 中 的 bash 命令 ,依次 安装 所 需 工 具 包 


pip .sklearn .matplotlib , pandas , nltk .gensim xgboost , tensorflow , skflow 。 


| 代码 68: 安装 本 书 所 有 Python 编程 库 的 Mac OS Bash 脚本 


$ # 使 用 bash 自 带 的 easy install 安装 pip, 用 于 后 续 工具 包 的 简易 安装 。 
$ sudo easy install pip 

S HAR Pip 升 级 为 最 新 版 本 。 

$ sx pip install 一 Upgrade pip 


# 重 新 向 读者 确认 安装 基本 工具 库 , 如 果 已 经 安装 ,程序 将 会 有 提示 。 
sudo pip install -U numpy 

sudb pip install -U scipy 

sudo pip install -U sklearn 

suc pip install - U matplotlib 

sudo pip install - U pandas 


EI 


# 安 装 NLIK 所 需 的 必要 工具 包 。 
$ sudo easy install -U Beautifulsoup4 
$ sub pip install -U nltk 


$ + 安装 wbrd2zvec 技 术 相关 的 工具 包 ensim 
$ sub pip install - Ugenism 


$ EIk XEBoost 技 术 相关 的 Python 工具 包 xgboost。 
$ sub pip install -U xgboost 


S 4# 安 装 Tensorflow 以 及 更 加 适合 scikit- leam 接 口 的 skelov. 

$ sudo easy install -U six 

$ sub pip install — upgradehttps: //storage.googleapi s .com/tensorflow/mac/ 
tensorf1ow- 0.5.0- py2- none- any.whl 

$ pip install git* git://githrb.cavtensorflow/skflow.git- 


S +# 重 新 运行 python 解 释 器 环境 。 
$ python | 
(3) 继续 在 Python 中 使 用 如 下 命令 导入 所 有 的 工具 包 , 检 验 是 否 安装 成 功 。 


>>> import numpy, scipy, skleam, pandas, matplotlib, gensim, nltk, xgboost, tensorflow, skflow 


(4) 接着 在 Anaconda 的 Launch 里 选择 IPython NoteBook 在 那里 面 新 建 一 个 
Python 源 代码 文件 ,再 输入 一 次 上 述 代码 ,检验 安装 。 

(5) 如 果 在 检验 过 程 中 出 现 工具 包 加 载 错误 ,请 读者 复制 粘贴 对 应 错误 代码 到 搜索 
引擎 中 寻找 解决 方案 ?。 笔 者 在 配置 中 也 难免 会 遇 到 一 些小 问题 ,使 用 搜索 引擎 寻找 解 
决 方案 是 作为 一 名 程序 员 必 备 的 良好 素质 。 


3.2.1 自然 语言 处 理 包 (NLTK) 


早期 的 自然 语言 处 理 (Natural Language Processing) 是 语言 学 (Linguistics) 的 一 门 
分 支 科 目 ,侧重 于 对 人 类 语言 的 词法 (单词 的 形成 和 组 成 )、 句 法 (单词 如 何 组 成 短语 或 者 
句子 的 规则 ) 等 的 研究 。 但 是 随 着 计算 机 和 互联 网 的 兴起 ,科学 家 将 目光 投向 了 更 有 前 景 
的 领域 : 计算 语言 学 (Computational Linguistics) , 即 期 望 借助 计算 机 强大 的 运算 能 力 和 
海量 的 互联 网 文本 ,来 提高 自然 语言 处 理 能 力 。NLP 因此 也 不 再 局 限 在 语言 学 的 角度 ， 
而 是 扩展 到 人 工 智能 (Artifical Intelligence) 的 研究 领域 。 这 项 研究 开始 探讨 如 何 让 计算 
机 处 理 . 生 成 甚至 理解 人 类 的 自然 语言 ,并 且 许 多 传统 语言 学 的 任务 也 逐渐 开始 被 计算 机 
运算 所 替代 。 

这 一 节 所 介绍 的 NLTK (Natural Language ToolKit) ,是 时 下 非常 流行 的 在 Python 
解释 器 环境 中 用 于 自然 语言 处 理 的 工具 包 。 对 于 NLTK 的 使 用 者 而 言 , 它 就 像 是 一 名 极 
其 高 效 的 语言 学 家 ,为 您 快速 完成 对 自然 语言 文本 的 深层 处 理 和 分 析 。 

如 果 没 有 自然 语言 处 理 技术 ,对 于 如 下 的 两 行 英文 句子 ,除了 使 用 我 们 在 3. 1. 1. 1 特 
征 抽取 一 节 学 习 到 的 词 袋 法 (Bag of Words) 之 外 ,似乎 没有 更 多 的 处 理 和 分 析 手 段 , 如 代 
码 69 所 示 。 

The cat is walking in the bedroom. 


A dog was running across the kitchen. 


| 代码 69: 使 用 词 袋 法 (Bag-of-Words) 对 示例 文本 进行 特征 向 量化 


>>># 将 上 述 两 个 句子 以 字符 串 的 数据 类 型 分 别 存储 在 变量 sent] 与 sent2 中 
>>> sentl= "The cat is walking in the bedroam." 
>>> sent2- "A dog was running across the kitchen." 


O FRAME 29. 作者 在 此 处 列 出 几 种 常见 问题 的 解决 方案 http: / /stackoverflow. com/questions/33900256/error-unknown-locale- 


utf-8-on-pandas-import-mac-os-x-when-running-fish-sh 





>>># 从 skleam.feature extraction.text "4A CountVectorizer 
>>> from skleam. feature extracticn.text import CountVvectorizer 
>>> count_vec= CountVectorizer () 


>>> sentences= [sentl, sent2] 


>>># 输 出 特征 向 量化 后 的 表示 。 

»»»print count_vec.fit_transfomn (sentences) .toarray() 
101101100210] 

100010011101] 


>>># 输 出 向 量 各 个 维度 的 特征 含义 。 

>>> print count vec.get feature names() 

[u'across', u'bedroan', u'cat', u'dog', u'in', u'is', u'kitchen', u'ruming', 

u'the', u'walking', u'was'] J 


而 我 们 下 面 所 要 演示 的 范例 代码 70 则 使 用 NL TK 对 这 两 句 里 面 所 有 词汇 的 形成 与 


性 质 类 属 乃 至 词汇 如 何 组 成 短语 或 者 句子 的 规则 ,做 了 更 加 细致 地 分 析 。 


[ «9 70. 使 用 NLTK 对 示例 文本 进行 语言 学 分 析 


>>># 导 入 ntk 
>>> import nltk 


>>># 对 旬 子 进行 词汇 分 割 和 正规 化 ,有 些 情况 如 aren't 需 要 分 割 为 are 和 n't; 或 者 Im 要 分 割 为 
IÜ'm 
»»»tokens l-nltk.word tokenize (sent) 
>>> print tokens 1 
("the', 'cat*, 'is', ‘walking’, 'in', 'the', "bedron', '.'] 


»»»tokens 2-nltk.word tokenize (sent2) 
»»»print tokens 2 


['A', 'dog', 'was', 'running', 'across', 'the', ‘kitchen’, '.'] 


第 3 章 进 阶 篇 





>>># 整 理 两 句 的 词 表 ,并 且 按照 ascII 的 排序 输出 。 
>>>vocab 1= sorted (set (tokens 1) 
>>>print vocab 1 

('.", "Ihe, Pedroam', 'cat', 'in', 'is', 'the', 'walking'] 


>>> Vocab 2- sorted (set (tokens 2)) 
»»»print vocab 2 
('.", 'A', 'across', 'dog', 'kitchen', ‘running’, 'the', 'was'] 


>>># 初 始 化 steamer 寻找 各 个 词汇 最 原始 的 词根 。 

>>> stemmer- nltk.stem.ForterStenmmer () 

>>> stem 1- [stemmer.stem(t) for t in tokens 1] 

>>>print stem 1 

[u"Tte', u'cat', u'is', u'walk', u'in', u'the', u'bedrom', u'.'] 


>>> stem 2- [stemmer.stem(t) for t in tokens 2] 
>>>print stem 2 
[u'A', u'dog', u'va', u'run', u'across', u'the', u'kitchen', u'.'] 


>>># 初 始 化 词性 标注 器 ,对 每 个 词汇 进行 标注 。 

>>>pos tag l-nitk.tag.pos tag(tokens 1) 

»»»print pos tag 1 

[("The', 'DI"), ('cat', 'NN'), ('is', VEZ'), ('walking', 'VBG'), ('in', "IN'), ("the', 'DT'), ("bedroan: 
tV INO, un 10] 


»»»pos tag 2-nitk.tag.pos tag(tokens 2) 
>>>print pos tag 2 

[CA', 'DT'), ('dog', "NN'), ('was', 'VED'), ('running', 'VEG'), ('across', "IN'), ('the', 'DI"), (' 
Kitchen’, 'NN'), ('.', '.")] 


3.2.2 illi] it Word2Veo HEN 


我 们 在 “3. 1. 1. 1 特征 抽取 ” 节 详 细 介 绍 了 如 何 通过 词 袋 法 (Bag of Words) , Bl EL f 
个 词汇 为 特征 ,向 量化 表示 一 个 文本 :并 且 提 供 了 几 种 特征 量化 的 技术 , 如 
CountVectorizer 和 TfidfVectorizer。 词 袋 法 (Bag of Words) 可 以 视 作 对 文本 向 量化 的 表 
示 技 术 , 通 过 这 项 技术 可 以 对 文本 之 间 在 内 容 的 相似 性 进行 一 定 程度 的 度量 。 但 是 对 于 


的 两 段 文 本 , 词 袋 法 (Bag of Words) 技 术 似乎 对 计算 他 们 的 相似 度 表 现 得 无 能 为 力 。 
The cat is walking in the bedroom. 
A dog was running across the kitchen. 

尽管 从 语义 上 讲 , 这 两 段 文本 所 描述 的 场景 极为 相似 ;但 是 ,从 词 袋 法 表示 来 看 ,这 两 
段 文本 唯一 相同 的 词汇 是 the, 找 不 到 任何 语义 层面 的 联系 。 

而 在 “3. 2. 1 自然 语言 处 理 包 (NLTK)" 节 中 ,我 们 进一步 学 习 到 如 何 借助 更 加 复杂 
的 自然 语言 处 理 技术 对 文本 进行 分 析 。 这 使 得 我 们 不 仅 能 够 对 词汇 的 具体 词性 进行 标 
注 ,甚至 可 以 对 句子 进行 解构 。 然 而 ,即便 我 们 能 够 使 用 NLTK 中 的 词性 标注 技术 对 上 
述 两 段 文本 进行 分 析 , 找 出 对 应 词汇 在 词性 方面 的 相似 性 ,也 无 法 针对 具体 词汇 之 间 的 含 
义 是 否 相似 进行 度量 。 

因此 ,为 了 寻找 词汇 之 间 的 相似 度 关系 ,我 们 试图 也 将 词汇 的 表示 向 量化 。 这 样 就 可 
以 通过 计算 表示 词汇 的 向 量 之 间 的 相似 度 , 来 度量 词汇 之 间 的 含义 是 否 相 似 。 而 为 了 学 
习 到 这 样 的 词 向 量 表示 ,Yoshua 教授 等 人 (参考 文献 [13]) 以 及 Google 研究 员 Mikolov 
等 人 (参考 文献 [14]) 分 别 从 神经 网 络 模型 的 角度 提出 了 自己 的 框架 。 

鉴于 本 书 受众 的 机 器 学 习 理 论 背 景 不 一 ,作者 在 这 里 只 是 借 由 Yoshua 教授 的 论 
文 [13] 中 所 绘 的 图 3-7 形象 地 解释 其 学 习 过 程 , 并 且 在 解释 的 过 程 中 会 涉及 一 些 与 配置 
相关 的 超 参数 ,请 读者 留意 : 首先 ,我 们 要 明确 ,句子 中 的 连续 词汇 片段 ,也 被 称 作 上 下 文 
(Context)。 词 汇 之 间 的 联系 就 是 通过 无 数 这 样 的 上 下 文 建立 的 。 以 这 样 一 句 英文 为 例 : 
The cat is walking in the bedroom. 如 果 我 们 需要 这 句 话 中 所 有 上 下 文 数量 为 4 的 连续 
词汇 片段 ,那么 就 有 The cat is walking 、cat is walking in,is walking in the 以 及 
walking in the bedroom, Wifi AIER (Language Model) 的 角度 来 讲 , 每 个 连续 词汇 片段 
的 最 后 一 个 单词 究竟 有 可 能 是 什么 ,都 是 受到 前 面 3 个 词汇 的 制约 。 因 此 ,这 就 形成 了 一 
个 根据 前 面 3 个 单词 ,预测 最 后 一 个 单词 的 监督 学 习 系统 。 如 果 我 们 使 用 神经 网 络 框架 
来 描述 , 便 是 图 3-7 所 代表 的 一 个 监督 学 习 的 神经 网 络 模型 。 当 上 下 文 数量 为 的 时 候 ， 
提供 给 这 个 网 络 的 输入 (Input) 都 是 前 ”一 1 个 连续 的 词汇 片段 wmy，… ,rw ,指向 的 目 
标 输出 (Output) 就 是 最 后 一 个 单词 rw 。 而 在 网 络 中 ,用 于 计算 的 都 是 这 些 词汇 的 向 量 表 
WA Cwm), 每 一 个 红色 实心 圆 都 代表 词 向 量 中 的 元 素 。 每 个 词汇 红色 实心 圆 的 个 数 
代表 了 词 向 量 的 维度 (Dimension) ,并 且 所 有 词汇 的 维度 都 是 一 致 的 。 神 经 网 络 的 训练 也 
是 一 个 通过 不 断 迭 代 、 更 新 参数 循环 往复 的 过 程 9 ,而 我 们 从 图 3-7 这 个 网 络 最 终 获得 的 
就 是 每 个 词汇 独特 的 向 量 表示 。 


O ”拓展 小 贴 士 30: 神经 网 络 是 一 个 复杂 的 话题 ,笔者 不 打算 在 本 书 过 多 谈论 。 关 于 神经 网 络 的 基础 知识 讲解 ,我 们 会 集中 安排 在 
3. 2. 4 TensorFlow 框架 一 节 。 
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图 3-7 一 个 基于 神经 网 络 的 语言 模型 ,图 片 来 源 于 参考 文献 [13] 


本 节 , 我 们 将 使 用 gensim 工具 包 , 利 用 代码 71 对 之 前 在 本 书 中 多 次 用 到 的 20 类 新 
闻 文 本 (20newsgroups) 进 行 词 向 量 训练 ;并 且 通 过 抽样 几 个 词汇 ,查验 Word2Vec 技术 
是 否 可 以 在 不 借助 任何 语言 学 知识 的 前 提 下 ,寻找 到 相似 的 其 他 词汇 。 


| 代码 71: 用 20 类 新 闻 文本 (20newsgroups) 进 行 词 向 量 训练 


>>># 从 skleam.datasets FA 20 类 新 闻 文本 抓 取 器 。 
>>> frm skleamn.datasets import fetch 20newsgroups 
>>># 通 过 互联 网 即时 下 载 数据 。 

>>> news= fetch 20newsgroups (subset= 'all') 

>>>X, y-news.data, news.target 


>>> 4 从 bs4 导 人 Beautifulsoup, 
>>> fram bs4 import Beautifulsoup 
22» RÀ nltk 和 re 工具 包 。 
>>> import nltk, re 





>>># 定 义 一 个 函数 名 为 news to _sentences 讲 每 条 新 闻 中 的 句子 逐一 剥离 出 来 ,并 返回 一 个 句子 
的 列表 。 

>>> Œf news to sentences (news) : 

>>> næs text-BeautifulSoup (news) .get text () 

>>> ‘tokenizer — nltk.data.load('tokenizers/punkt/english.pickle") 

>>> raw sentences-tokenizer.tokenize (news text) 

>>> sentences- [] 

>>> for sent in raw sentences: 

>>> sentences.append (re.sub (* [^a- zA- Z] ', ' ', sent.lower() .strip()) split ()) 

>>> return sentences 


>>> sentences [] 


>>>+ 将 长 篇 新 闻 文 本 中 的 句子 剥离 出 来 ,用 于 训练 。 
>>> for x in X: 
>>> sentences +=news_to_sentences (x) 


>>> #JA gensim.models 里 导入 word2vec, 
>>> from gensim.models import word2vec 


>>># 配 置 词 向 量 的 维度 。 

>>>nm features- 300 

>>># 保 证 被 考虑 的 词汇 的 频 度 。 

>>>min word count- 20 

>>># 设 定 并 行 化 训练 使 用 CE 计算 核心 的 数量 ,多 核 可 用 。 
>>> num_ workers-2 

>>># 定 义 训练 词 向 量 的 上 下 文 窗口 大 小 。 

>>> omtext=5 

>>> downsampLing= le- 3 


>>>#JA gensimmodels $À word2vec. 
>>> fran gensimamdels import word2vec 


>>> E 训练 词 向 量 模型 。 

>>> model= word2vec.Word2Vec (sentences, workers-num workers, V 
Size-num features, min count-min word count, V 
windbw- context, sample- downsampling) 


>>># 这 个 设 定 代表 当前 训练 好 的 词 向 量 为 最 终 版 ,也 可 以 加 快 模型 的 训练 速度 。 
»»»model.init sims (replace- True) 


>>># 利 用 训练 好 的 模型 ,寻找 训练 文本 中 与 moming 最 相关 的 10 个 词汇 。 

>>>model most, similar ('moming') 
[(u'aftemoon', 0.7533695697784424) , 
(u'weekend', 0.6561624746322632) , 
(u'evening!, 0.6570416688919067) , 
(u'saturday', 0.63960862159729) , 
(u'yesterday', 0.6292878985404968) , 
(u'friday', 0.6119368076324463) , 
(u'sunday', 0.6075364351272583) , 
(u'tuesday', 0.6071774959564209) , 
(u'monday', 0.6050551533699036) , 
(u'thursday', 0.5909229516983032)] 


>>># 利 用 训练 好 的 模型 ,寻找 训练 文本 中 与 email 最 相关 的 10 个 词汇 。 
»»»model.most similar('email') 

[(u'mail', 0.6806867718696594) , 

(u'replies', 0.6374378204345703) , 

(u'respond', 0.5839064386825562) , 

(u'contact', 0.5823279619216919) , 

(u'send', 0.5804370641708374) , 

(u'address', 0.5789896249771118) , 

(u'snail', 0.5748004913330078) , 

(u'requests', 0.5558102130689893) , 

(u'addresses', 0.5551006197929382) , 

(u'postal', 0,5530245304107666) ] J 


通过 观察 代码 71 的 两 组 输出 ,我 们 不 难 发 现 ,在 不 使 用 语言 学 词典 的 前 提 下 , 词 向 量 
技术 仍然 可 以 借助 上 下 文 信息 找到 词汇 之 间 的 相似 性 。 这 一 技术 不 仅 节省 了 大 量 专业 人 
上 的 作业 时 间 , 而 且 也 可 以 作为 一 个 基础 模型 应 用 到 更 加 复杂 的 自然 语言 处 理 任务 中 。 

最 后 ,笔者 需要 向 读者 们 指出 的 是 , 词 向 量 的 训练 结果 很 大 程度 上 受 所 提供 的 文本 影 
响 。 换 言 之 ,这 些 词 向 量 绝 不 是 固定 的 ;您 也 可 以 灵活 运用 这 个 模型 ,训练 不 同文 本 内 部 
独 有 的 词 向 量 。 


3.2.3 XGBoost 模型 


提升 (Boosting) 分 类 器 隶属 于 集成 学 习 模 型 。 它 的 基本 思想 是 把 成 百 上 千 个 分 类 准 
确 率 较 低 的 树 模型 组 合 起 来 ,成 为 一 个 准确 率 很 高 的 模型 。 这 个 模型 的 特点 在 于 不 断 迭 
代 , 每 次 迭代 就 生成 一 颗 新 的 树 。 对 于 如 何在 每 一 步 生成 合理 的 树 ,大 家 提出 了 很 多 的 方 
法 ,比如 我 们 在 集成 (分 类 ) 模 型 中 提 到 的 梯度 提升 树 (Gradient Tree Boosting)。 它 在 生 
成 每 一 棵 树 的 时 候 采 用 梯度 下 降 的 思想 ,以 之 前 生成 的 所 有 决策 树 为 基础 ,向 着 最 小 化 给 
定 目标 函数 的 方向 再 进一步 。 

在 合理 的 参数 设置 下 ,我 们 往往 要 生成 一 定数 量 的 树 才 能 达到 令 人 满意 的 准确 率 。 
在 数据 集 较 大 较 复 杂 的 时 候 ,模型 可 能 需要 几 千 次 迭代 运算 。 但 是 ,XGBoost 工具 更 好 
地 解决 这 个 问题 。XGBoost 的 全 称 是 eXtreme Gradient Boosting。 正 如 其 名 , 它 是 
Gradient Boosting Machine 的 一 个 C++ 实现 ,作者 是 目前 在 华盛顿 大 学 研究 机 器 学 习 的 
陈 天 奇 博士 。 他 在 研究 中 深 感 自己 受制 于 现 有 库 的 计算 速度 和 精度 ,因此 在 2014 年 9 月 
开始 着 手 搭建 XGBoost 项 目 , 并 在 2015 年 夏天 逐渐 成 形 。XGBoost 最 大 的 特点 在 于 能 
够 自动 利用 CPU 的 多 线程 进行 并 行 ;同时 按照 陈 天 奇 等 人 论文 [12] 中 的 说 法 ,他 们 也 在 
算法 上 加 以 改进 提高 了 精度 。 

本 节 , 我 们 将 在 代码 72 中 使 用 XGBoost 模型 ,根据 泰坦 尼克 号 的 乘客 数据 上 进行 生 
还 者 预测 ;同时 也 与 其 他 我 们 在 书 中 提 到 的 集成 分 类 模型 进行 性 能 比较 。 


[Ts 72. 对 比 随机 决策 森林 以 及 XGBoost 模型 对 泰坦 尼克 号 上 的 乘客 是 否 生还 
的 预测 能 力 


>>>+ FA pandas 用 于 数据 分 析 。 
>>> import pandas as pd 


>>># 通 过 UEL 地 址 来 下 载 Titanic 数 据 。 
>>> titanic pd.read csv('http://biostat mc. vanderbilt .edi/wiki /pub/Main/DataSets/titanic.txt") 


>>> £35 BU pclass、age 以 及 sex 作 为 训练 特征 。 
>>>% titanic[['pelass', 'age', 'sex']] 
>>> y-titanic['survived'] 


>>># 对 缺失 的 age 信息 ,采用 平均 值 方法 进行 补 全 , 即 以 age 列 已 知 数据 的 平均 数 填充 。 
>>>X['age'] .fillna X['age'] mean0，inplace= True) 


>>>+# 对 原 数据 进行 分 割 ,随机 采样 25% 作 为 测试 集 。 
>>> fran skleam.cross validation import train test split 
>>>X train, X test, y train, y test-train test split(X, y, test. size- 0.25, ranim state- 33) 


>>># 从 sklearn.feature extraction FA DictVectorizer. 
>>> from skleam.feature_ extraction import DictVectorizer 
>>> vec= DictVectorizer (sparse- False) 


>>># 对 原 数据 进行 特征 向 量化 处 理 。 
>>>X train-vec.fit transform(X train.to dict (orient- 'record')) 
>>> X_test= vec.transform(x_test.to dict (orient- 'record')) 


>>># 采 用 默认 配置 的 随机 森林 分 类 器 对 测试 集 进行 预测 。 

>>> from skleam.ensenble import RandanForestClassifier 

>>> rfc- RandonWorestClassifier () 

>>> rfc.fit K_train, y train) 

>>> print "The accuracy of Randm Forest Classifier on testing set:', rfc.score(X test, y test) 


‘The accuracy of Random Forest Classifier on testing set: 0.775075987842 


>>># 采 用 默认 配置 的 xcBoost 模 型 对 相同 的 测试 集 进行 预测 。 

>>> fran xgboost import xcBClassifier 

>>> xgoc- XEBClassifier() 

>>> xobc. fit X train, y train) 
XGEClassifier(oase score- 0.5, colsample_bylevel=1, colsample bytree- 1, 
game= 0, learning rate-0.1, mex delta step-0, max depth 3, 
min child weight=1, missing-Ncne, n estimators- 100, nthread=- 1, 
chjective= 'binary:logistic', reg alpha-0, reg lanbde= 1, 
scale pos weight- 1, seed- 0, silent= True, subsample- 1) 


>>> print "Ihe accuracy of eXtreme Gradient Boosting Classifier on testing set:', xgbc.score(X test, y 
test) 


The accuracy of extreme Gradient Boosting Classifier cn testing set: 0.787234042553 


通过 对 上 述 输出 的 观察 ,我 们 可 以 发 现 ,XGBoost 分 类 模型 的 确 可 以 发 挥 更 好 的 预 
测 能 力 。 而 事实 上 ,不 仅仅 只 是 Titanic 这 一 个 数据 分 析 任 务 ,XGBoost 之 所 以 如 此 负 有 
盛名 ,更 是 因为 该 模型 在 多 项 数据 分 析 竞 赛 中 帮助 选手 取得 名 次 。 对 于 具体 如 何在 实战 
中 使 用 XGBoost, 这 些 参 赛 选手 也 道 出 了 他 们 的 经 验 , 感 兴趣 的 读者 可 以 参考 如 下 链接 : 

http://blog. kaggle. com/2015/11/30/flavour-of-physics-technical-write-up-lst- 
place-go-polar-bears/ 

http: //blog. kaggle. com/2015/09/22/caterpillar-winners-interview-lst-place- 
gilberto-josef-leustagos-mario/ 

http://blog. kaggle. com/2015/10/21 /recruit-coupon-purchase-winners-interview- 
2nd-place-halla-yang/ 


3.2.4 Tensorflow 框架 


2015 年 10 月 5 日 ,谷歌 为 TensorFlow 提交 了 注册 商标 申请 (登记 编号 86778464), 
并 这 样 描述 它 : CO 用 以 编写 程序 的 计算 机 软件 ;(2) 计算 机 软件 开发 工具 ;(3) 可 应 用 于 
人 工 智能 深度 学 习 ,高 性 能 计算 、 分 布 式 计算 .虚拟 化 和 机 器 学 习 这 些 领 域 ;(4) 软件 库 可 
应 用 于 通用 目的 的 计算 .数据 收集 的 操作 .数据 变换 .输入 输出 .通信 图像 显示 .人 工 智 能 
等 领域 的 建 模 和 测试 ;(5) 软件 可 用 作 应 用 于 人 工 智能 等 领域 的 应 用 程序 接口 (APD 。 

2015 年 11 月 9 日 ,Google 宣布 对 Tensorflow 开源 。 一 时 间 ,Tensorflow 在 GitHub 
上 面 的 下 载 量 跃升 至 全 站 第 2 位. 可见 全 世界 兴趣 爱好 者 对 这 款 开源 软件 的 热情 。 作 者 
曾 在 前 言 中 说 过 , 现 如 今 许多 知名 的 IT 企业 ,如 Google, Facebook, Microsoft, Apple 其 
至 国内 的 百度 ,无 不 在 机 器 学 习 研 究 领 域 给 予 非常 大 的 资金 和 人 力 的 投入 :但 是 , 鲜 有 将 
内 部 使 用 的 平台 公之于众 的 。 当 然 , 作 者 虽然 不 认为 Google XC] WGK 96 TE — UC" RE 
善 捐助 ,但 是 不 管 怎样 这 样 的 举措 的 确 令 人 拍手 叫好 。 

许多 人 开始 以 为 Tensorflow 只 是 一 个 用 于 深入 学 习 研 究 的 系统 ,其 实 不 然 。 应 该 


O HRW 31, Google 在 其 将 近 20 年 的 发 展 历程 中 ,不 乏 这 种 “战略 性 ”的 论文 发 表 甚 至 代码 开源 ,从 而 对 整个 IT 领域 产生 革命 
性 影响 的 例子 。 其 中 包括 : 发 表 MapReduce 这 种 分 布 式 存储 和 计算 框架 的 介绍 论文 (参考 文献 [15]) ,从 而 产生 了 Hadoop, Spark 等 ;开源 
Android 手机 操作 系统 , 几 年 之 间 雄 霸 移 动 端 操作 系统 市 场 ,与 苹果 公司 的 IOS 一 较 高 下 。 不 知道 这 次 公开 Tensorflow 这 个 曾 在 Google 
内 部 作为 机 器 学 习 的 系统 框架 ,是 否 也 意味 着 Google 正在 为 今后 的 人 工 智能 革命 进行 战略 布局 。 换 言 之 ,如 果 有 更 多 的 数据 科学 家 开始 
使 用 Tensorflow 来 从 事 机 器 学 习 方面 的 研究 ,那么 作者 冒昧 揣测 ,这 将 有 利于 Google 对 日 益 发 展 的 机 器 学 习 行 业 拥有 更 多 的 主导 权 。 


说 ,这 是 一 个 完整 的 编码 框架 。 就 如 同 我 们 按照 Python 编程 语法 设计 程序 一 样 ， 
Tensorflow 内 部 也 有 自己 所 定义 的 常量 .变量 ,数据 操作 等 要 素 。 不 同 的 是 , Tensorflow 
使 用 图 (Graph) 来 表示 计算 任务 :并 使 用 会 话 (Session) 来 执行 图 。 如 代码 73 Bros ,我们 
以 使 用 显 式 会 话 输出 一 句 话 作为 例子 。 


| 代码 73: 使 用 Tensorflow 输出 一 句 话 


>>># 导 和 tensorflow 工 具 包 并 重 命名 为 tf. 
>>> jmport tensorflow as tf 

>>># 导 人 mumpy 并 重 命名 为 mp。 

>>> import numpy as np 


>>># 初 始 化 一 个 Tensorflow 的 常量 : Hello Google Tensorflow! FFR ,并 命名 为 greeting 作 为 一 个 
计算 模块 。 
>>> greeting- tf.constant ("Hello Google Tensorflow! ') 


>>># 启 动 一 个 会 话 。 
>>> sess- tf.Session() 


>>># 使 用 会 话 执行 greeting 计 算 模块 。 

>>> result- sess.run (greeting) 

>>>+# 输 出 会 话 执行 的 结果 。 

>>>Print result 

>>># 关 闭会 话 。 这 是 一 种 显 式 关 闭会 话 的 方式 。 
>>> sess.close() 


Hello Google Tensorflow! | 


可 以 说 ,代码 73 是 许多 介绍 编程 的 书籍 开篇 的 老 套路 。 不 过 代码 74 会 告诉 大 家 ， 
Tensorflow 是 如 何 像 搭 积 木 一 样 将 各 个 不 同 的 计算 模块 拼接 成 流程 图 ,完成 一 次 线性 函 
数 的 计算 ,并 在 一 个 隐 式 会 话 中 执行 的 。 


[ 代码 74: 使 用 Tensorflow 完成 一 次 线性 函数 的 计算 


>>># 声 明 matrixl 为 Tensorflow 的 一 个 1* 2 的 行 向 量 。 
>>>matrixl=tf.constant ([[3., 3.11) 

>>># 声 明 matrix? 为 Tensorflow 的 一 个 2x 1 的 列 向 量 。 
»»»matrix2- tf.constant ([[2.], [2.]]) 





Pyho 机 器 学 习 及 实践 


>>>#product 将 上 述 两 个 算 子 相 乘 ,作为 新 算 例 。 
>>> product- tf matmil tnatrixl, matrix?) 


>>># 继 续 将 product 与 一 个 标量 2.0 求 和 拼接 ,作为 最 终 的 linear 算 例 。 
>>> linear= tf.add (product, tf.constant (2.0)) 


>>># 直 接 在 会 话 中 执行 linear 算 例 ,相当 于 将 上 面 所 有 的 单独 算 例 拼接 成 流程 图 来 执行 。 
>>>with tf.Session() as sess: 
>>> result- sess.run (Linear) 


>>> print result 
(014.1) | 


尽管 代码 73 和 代码 74 可 以 说 明 Tensorflow 是 一 个 编程 框架 ,但 是 截至 目前 还 没有 
显示 出 其 机 器 学 习 的 能 力 。 那 么 接 下 来 的 代码 75 将 要 向 各 位 读者 展示 如 何 利用 
Tensorflow 自行 搭建 一 个 线性 分 类 器 ,重新 对 1. 1 机 器 学 习 综 述 一 节 的 “ 良 /恶性 乳腺 癌 
肿瘤 ”从 事 预 测 。 与 直接 使 用 Scikit-learn 中 已 经 编写 好 的 LogiticRegression 模型 不 同 ， 
Tensorflow 允许 使 用 者 自由 选取 不 同 操作 ,并 组 织 一 个 学 习 系 统 。 这 里 我 们 对 所 要 使 用 
的 线性 分 类 器 做 一 个 简化 : 取 0. 5( 良 性 肿瘤 为 0, 恶性 肿瘤 为 1) 为 界 , 并 采用 最 小 二 乘法 
拟 合 模型 参数 。 


| 代码 75: 使 用 Tensorflow 自 定义 一 个 线性 分 类 器 用 于 对 “ 良 /恶性 乳腺 癌 肿 瘤 ” 
进行 预测 

>>># 导 入 tensorflow, 

>>> import tensorflow as tf 

>>># 导 入 numy. 

>>> import numpy as np 

2» 导 人 pandas, 

>>> import pandas as pd 


>>># 从 本 地 使 用 pandas i HPL AR 886 Deb 86 009 IL AI SCRI © 
>>> train- pd.read csv('. ./Datasets/Breast—- Cancer/breast- cancer- train.csv!) 
>>> test- pd.read csv (' . ./Datasets/Breast- Cancer/breast- cancer- test.csv') 


>>>+ 分 隔 特征 与 分 类 目标 。 
>>>X train- mp.float32 (train[['Clurp Thickness", 'Gell Size']].7) 





>>>y train-rp.float3 (train[*Type'] .T) 
>>>X test-rp.float3? (test [['Clunp Thickness", 'Cell Size']].T) 
>>> y_test= rp.float (test ["Type" ] .T) 


>>># 定 义 一 个 tensorflow 的 变量 b 作 为 线性 模型 的 截 距 , 同 时 设置 初始 值 为 1.0。 
2»»b-tf.Variable (tf.zeros ([1])) 

>>># 定 义 一 个 tensorflow 的 变量 Ww 作为 线性 模型 的 系数 ,并 设置 初始 值 为 -1.0 至 1.0 之 间 均 匀 分 
布 的 随机 数 。 

>>>W tf.Variable (tf.randm unifomm([l, 2], - 1.0, 1.0)) 


>>># 显 式 定义 这 个 线性 函数 。 
2»»y-tf.metmil(W, X train) +b 


>>># 使 用 tensorflow 中 的 reduce mean 取 得 训练 集 上 均 方 误差 。 
>>> loss-tf.reduce mean(tf.square (y - y train)) 


>>>+# 使 用 梯度 下 降 法 估计 参数 w by Ff AL UE OE (CP KA 0.01, 这 个 与 Scikit- leam 中 的 
SarFegressor Z [Dl , 
>>> optimizer= tf. train.GradientDescentoptimizer (0.01) 


>>># 以 最 小 二 乘 损失 为 优化 目标 。 
>>> train= optimizer.minimize (loss) 


>>># 初 始 化 所 有 变量 。 
>>> init=tf.initialize all variables() 


>>># 开 启 Tensorflow 中 的 会 话 。 
>>> sess= tf.Session() 


>>>+ 执 行 变 量 初始 化 操作 。 


>>> sess.run (init) 


>>> dE AR 1000 轮 次 ,训练 参数 。 

>>> for step in xrange (0, 1000) : 

>>> sess.run (train) 

>>> if step $200==0: 

>>> print step, sess.run(W), sess.run(b) 





0 [[0.32832965 0.01579139]] [- 0.06232916] 

200 [[0.06633329 0.06811267]] [~ 0.06111253] 
400 [[ 0.05831201 0.07677723]] [~ 0.08568323] 
600 [[0.05788761  0.07736142]] [~ 0.08667096] 
800 [[0.05786182 0.07741673]] [~ 0.08684841] 


>>># 准 备 测试 样本 。 
>>> test negative- test. loc[test ["Iye"] == 0] [['Clunp Thickness", 'Gsll Size']] 
>>> test positive- test.loc[test ["Iype'] == 1] [['Clunp Thickmess', 'Gsll Size']] 


>>># 以 最 终 更 新 的 参数 作 图 3- 8. 

>>> import matplotlib.pyplot as plt 

>>> plt.scatter (test_negative['Clump Thickness'], test negative['Cell Size'], marker- 'o', s= 200, c 
= red!) 

>>>plt.scatter (test positive['Clump Thickness'], test. positive['Oell Size'], marker- 'x', s- 150, c ` 
= black!) i 


>>> plt.xlabel ('Clurp Thickness") 
>>> plt.ylabel ('Cell Size") 


>>> Le mp.arange (0, 12) 


>>># 这 里 要 强调 一 下 ,我 们 以 0.5 作 为 分 界面 ,所 以 计算 方式 如 下 。 
>>> ly= (0.5 -sess.run(b) -lx * sess.run(W) [0] [0]) / sess.run(W) [0] [1] 


»»»pit.plot(lx, ly, color = 'green') 
»»»plt.show() | 


对 比 图 3-8 与 图 3-9 中 的 二 分 类 直线 的 位 置 ,可 以 发 现 使 用 Tensorflow 自 定义 线性 
分 类 器 也 可 以 取得 与 使 用 Scikit-learn 相近 的 效果 。 也 许 对 于 机 器 学 习 背 景 知识 了 解 不 
多 的 读者 来 讲 , 这 样 按照 理论 和 算法 一 点 点 搭建 学 习 系统 实在 是 太 难 了 。 没 有 关系 ,我 们 
即将 介绍 另 一 个 对 Tensorflow 进一步 的 封装 ,以 求 与 Scikit-learn 的 使 用 接口 类 似 的 工 
HE skflow。 

skflow 非常 适合 于 熟悉 Scikit-learn 编程 接口 (API) 的 使 用 者 ,而 且 利 用 Tensorflow 
的 运算 架构 和 模块 封装 了 许多 经 典 的 机 器 学 习 模 型 ,如 线性 回归 器 深度 全 连接 的 神经 网 
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图 3-8 使 用 Tensorflow 自 定义 一 个 线性 分 类 器 在 “ 良 /恶性 乳腺 癌 
肿瘤 "数据 上 学 习 到 的 二 分 类 直线 ( 见 彩 图 ) 
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图 3-9 使 用 Scikit-learn 的 LogisticRegression 模型 训练 
得 到 的 二 分 类 直线 ( 见 彩 图 ) 


fi (Deep Neural Network, HPK DNN) 等 。 考 虑 到 代码 编写 风格 的 一 致 性 和 可 读 性 ,推荐 
在 今后 的 实践 中 使 用 skflow。 尽 管 如 此 ,skflow 仍然 支持 使 用 Tensorflow 的 基础 算 子 
自 定义 学 习 流 程 ,特别 是 用 于 搭建 如 图 3-10( 来 自 https://www. tensorflow. org/) 所 示 
的 神经 网 络 。 为 了 让 读者 更 好 地 理解 Tensorflow 以 及 skflow 中 的 人 工 神 经 网 络 模 型 
(Artifical Neural Network) ,在 展示 如 何 实践 skflow 之 前 , 先 介绍 一 些 有 关 人 工 神 经 网 


络 的 发 展 历史 和 相关 知识 。 


神经 网 络 的 研究 起 源 于 20 世纪 50 一 60 年 代 。 那 个 时 候 还 没有 太 多 的 计算 机 科学 家 
参与 人 工 智 能 的 研究 ,再 加 上 人 类 对 计算 机 的 了 解 也 刚刚 开始 ,于 是 一 些 AT 的 先驱 者 期 
待 可 以 借鉴 一 些 人 类 神经 科学 的 研究 成 果 来 构建 人 工 智 能 。 一 些 研究 神经 元 的 生物 学 家 
发 现 了 神经 (大 脑 ) 信 息 传递 的 大 致 工作 原理 , 如 图 3-11 所 示 ,神经 元 的 树 突 (Dendrite) 





SGD Trainer. 


图 3-10 ”Google Tensorflow 搭建 神经 网 络 
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图 3-11 神经 元 的 基本 结构 和 组 成 


接收 其 他 神经 元 传递 过 来 的 信息 ,然后 神经 细胞 体 对 信息 进行 加 工 之 后 ,会 通过 轴 突 
(Axon) 把 加 工 后 的 信息 传递 到 轴 突 终端 (Axon terminal) 然 后 再 传递 给 其 他 神经 元 的 树 
突 。 就 这 样 , 大 量 的 神经 元 就 连接 成 了 一 个 结构 复杂 的 神经 网 络 。 

于 是 ,早期 人 工 智 能 的 研究 人 员 打 算 先 从 计算 机 模拟 人 类 神经 元 的 角度 切入 ,比较 具 
有 代表 性 的 是 弗兰克 。… 罗 森 布 拉 特 (Frank Rosenblatt) 的 感知 机 (Perceptron) 模 
型 [16]。 几 乎 和 生物 学 上 的 神经 元 类 似 ,感知 机 的 计算 结构 如 图 3-12 所 示 , 包 括 n 维 输 
人 信号 (Inpub x =< a «ax trud 二、 对 应 的 参数 (Parameters) 向 量 w =< w uw rs 
w, > 和 截 距 b, 输出 (Output) 信 号 y 等 。 
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Wy X 一 | sign 

















图 3-12 罗 森 布 拉 特 感知 机 (Perceptron) 模 型 


罗 森 布 拉 特 感知 机 (Perceptron) 在 具体 运算 上 采用 线性 加 权 求 和 的 方式 处 理 输 入 信 
号 , 即 
yo=sign(w'x+b) (22) 
式 (22) 为 了 模拟 神经 元 的 行为 ,定义 了 式 (23) 所 示 的 激活 (符号 ) 函 数 ,由 此 我 们 可 以 知道 
感知 机 最 终 会 产生 两 种 离散 数值 的 输出 (Output) 信 号 : 
+1, z20 
sign(z)— —T1 xe (23) 
事实 上 ,Rosenblatt 的 感知 机 (Perceptron) 模 型 最 大 的 贡献 并 不 在 于 其 对 神经 元 的 
结构 的 模拟 ,而 是 Rosenblatt 本 人 设计 了 一 套 算法 ,使 得 感知 机 可 以 通过 不 断 地 根据 训 
练 数据 更 新 参数 ,达到 具备 线性 二 分 类 模型 的 学 习 能 力 。 这 个 算法 以 现在 的 眼光 看 来 与 


随机 梯度 下 降 (SGD) 方 法 很 像 ,但 是 在 当时 可 谓 秘 动 一 时 ,也 极 大 地 调动 了 人 工 智能 研究 
者 的 热情 。 因 为 这 实现 了 人 们 长 久 所 期 待 的 计算 机 具备 自 适 应 能 力 的 愿景 。 

不 过 好 景 不 长 ,MIT 人 工 智 能 实验 室 创 始 人 Marvin Minsky 和 Seymour 在 1969 年 
出 版 了 一 本 题名 为 (Perceptrons》 的 书 , 其 中 严谨 地 分 析 了 感知 机 学 习 模 型 ;并 且 使 用 异 
或 (XOR) 运 算 这 一 经 典 例子 ,道破 了 单 层 Perceptron 在 处 理 实际 问题 方面 的 局 限 性 。 正 
如 图 3-13 所 示 , 目 前 所 了 解 的 感知 机 模型 可 以 处 理 线 性 二 分 类 问题 , 即 可 以 对 AND, 
NAND 以 及 OR 这 些 运算 产生 的 类 别 结果 进行 区 分 ;但 是 很 显然 ,我 们 无 论 如 何 也 无 法 
找到 一 条 二 维 空间 的 直线 用 来 分 割 XOR 所 产生 的 数据 点 。 
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图 3-13 使 用 感知 机 区 分 并 (AND) ,与 非 (NAND) .或 (OR) 以 及 异 或 
(XOR) 运 算 所 产生 的 数据 ,图 片 摘自 [8]( 见 彩 图 ) 


正 因为 Marvin Minsky 和 Seymour 的 这 本 著作 ,使 得 神经 网 络 的 研究 在 20 世纪 70 
年 代 陷入 低潮 。 实际 上 ,《Perceptrons》[17] 这 本 书 并 没有 完全 否定 单 层 感 知 机 的 科学 贡 
献 ; 同 时 也 提 到 可 以 通过 从 加 多 层 感知 机 (Multi-layer Perceptrons) 来 完成 对 异 或 (XOR) 
运算 的 非 线性 拟 合 。 然 而 ,之 所 以 大 家 表 失 了 继续 对 感知 机 研究 的 热情 ,主要 是 因为 许多 
人 发 现 无 法 再 继续 使 用 Rosenblatt 的 学 习 算法 作用 在 多 层 感 知 机 上 。 一 方面 ,历史 证 明 
设计 并 验证 一 套 有 效 的 新 算法 总 是 要 花费 长 达 几 年 甚至 十 几 年 的 时 间 ; 另 一 方面 ,就 如 之 
前 所 提 到 的 ,虽然 Rosenblatt 提出 的 算法 与 随机 梯度 下 降 (SGD) 法 在 形式 上 类 似 , 但 是 
XX (23) 这 种 分 段 函 数 导致 无 法 平滑 地 求 得 梯度 。 

不 过 ,依然 有 人 在 这 场 科研 寒冬 中 坚持 了 下 来 ,他 们 是 David Rumelhart, Geoffrey 
Hinton 和 Ronald Williams. M 1985 年 开始 ,这 三 位 科学 家 所 发 表 的 一 系列 论文 [18， 
19] 重新 激发 了 如 图 3-14 所 示 的 多 层 感 知 机 (人 工 神经 网 络 ) 的 研究 热潮 。 这 些 论文 重 
点 阑 述 了 如 何 使 用 诸如 逻辑 斯 蒂 (Logistic Function) 这 类 连续 平滑 的 函数 替换 原 有 分 段 
的 符号 函数 (Sign) ,作为 激发 函数 ;以 及 如 何 使 用 回溯 (Back Propagating,BP) 算 法 逐 层 
更 新 参数 。 

接 下 来 的 几 年 ,从 事 人 工 神经 网 络 (Artificial Neural Network, ANN) 研 究 的 科研 人 
员 渐 渐 陷 人 了 两 难 的 境地 : 一 方面 大 家 越发 觉得 隐藏 层 数 (hidden layers) 更 多 的 神经 网 
络 可 以 表达 更 加 复杂 的 现实 数据 ,使 深度 神经 网 络 拥 有 更 高 的 性 能 ;但 是 另 一 方面 ,一 旦 
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图 3-14 多 层 感知 机 (人 工 神经 网 络 ) 模 型 架构 ,图 片 摘自 于 [21] 


隐藏 层 数 增加 得 过 多 , BP 算法 在 回溯 误差 时 衰退 得 越 明 显 , 其 至 无 法 对 输出 层 (input 
layer) 参 数 的 更 新 起 到 明显 作用 ,而 且 更 容易 让 模型 优化 陷入 局 部 最 优 解 。 

2006 年 , Hinton 教授 的 研究 团队 再 次 发 表 论文 [20] 利用 预 训练 (Pre-training) 的 方 
式 缓解 了 局 部 最 优 解 的 问题 ,将 隐藏 层 的 数量 推进 到 7 层 , 并 由 此 掀起 了 深度 学 习 (Deep 
Learning) 的 热潮 。 

之 所 以 介绍 上 述 关于 神经 网 络 的 基础 知识 和 发 展 历史 ,是 因为 笔者 即将 要 在 代码 76 
中 使 用 skflow 中 的 深度 神经 网 络 (DNN) 对 “美国 波士顿 房价 ”进行 回归 预测 ,并 且 与 集 
成 回归 模型 对 比 性 能 差异 ;同时 ,也 方便 读者 理解 代码 76 中 对 DNN 的 各 项 配置 。 


| 代码 76: 使 用 skflow 内 置 的 LinearRegressor .DNN 以 及 Scikit-learn 中 的 集成 
回归 模型 对 “美国 波士顿 房价 ”数据 进行 回归 预测 


>>># 一 次 性 导入 skleam 中 的 多 个 模块 。 
>>> frm skleam import datasets, metrics, preprocessing, cross validation 


>>># 使 用 datasets.load boston 读 取 美 国 波士顿 房价 数据 。 
>>> boston= datasets.load boston() 


>>>+ 获 取 房 屋 数 据 特征 以 及 对 应 房价 。 
>>>X, y-boston.data, boston.target 


>>># 分 割 数据 ,随机 采样 2%8 作 为 测试 样本 。 
>>>X train, X test, y train, y test- cross validaticn.train test split(X, y, test size- 0.25, 
randm state- 33) 





>>># 对 数据 特征 进行 标准 化 处 理 。 

>>> scaler- preprocessing.Standardscaler () 
>>>X train- scaler.fit transform(X train) 
>>>X test-scaler.transfomm(X test) 


>>># 导 入 skflow, 
>>> import skflow 


>>># 使 用 skflow 的 LinearRegressor, 

»»»tf lr-skflow.TensorFlowLinearRegressor (steps= 10000, learning rate=0.01, batch size- 50) 
>>>tf lr.fit(X train, y train) 

»»»tf lr y predict-tf lr.predict (X test) 


>>># 输 出 skflow 中 LinearRegressor 模 型 的 回归 性 能 。 

>>> print. "The mean absoluate error of Tensorflow Linear Regressor on boston dataset is', metrics.mean 
absolute error(tf lr y predict, y test) 

»»»print "Ihe mean squared error of Tensorflow Linear Regressor on boston dataset is', metrics.mean 
Squared error(tf lr y predict, y test) 

>>>print "The R- squared value of Tensorflow Linear Regressor on boston dataset is', metrics.r2 score 
(tf lr y predict, y test) 


step #1, avg. loss: 595.96338 
Step # 1001, epoch #125, avg. loss: 105.57941 
Step $ 2001, epoch # 250, avg. loss: 21.24366 
Step $ 3001, epoch # 375, avg. 
Step # 4001, epoch #500, avg. loss: 21.29627 

Step #5001, epoch # 625, avg. loss: 21.21216 

Step # 6001, epoch # 750, avg. loss: 21.18802 

Step # 7001, epoch #875, avg. loss: 21.19276 

‘Step # 8001, epoch #1000, avg. loss: 21.28822 

Step # 9001, epoch #1125, avg. loss: 21.17799 

‘The mean absoluate error of Tensorflow Linear Regressor on boston dataset is 3.51069934875 
‘The mean squared error of Tensorflow Linear Regressor on boston dataset is 25.1175995458 








‘The R- squared value of Tensorflow Linear Regressor cn boston dataset is 0.620007674595 


>>># 使 用 skflow 的 DNNEegressor, 并 且 注 意 其 每 个 隐 层 特征 数量 的 配置 。 

>>>tf dnn regressor- skPlow.TensorF1owDNNRegressor (hidden units- [100, 40], 
Steps- 10000, learning rate-0.01, batch size- 50) 

»»»tf d regressor.fit(X train, y train) 

>>>tf dm regressor y predict-tf dnn regressor.predict (X test) 


>>># 输 出 skflow 中 INNRegressor 模 型 的 回归 性 能 。 

>>> print "The mean absoluate error of Tensorflow DNN Regressor on boston dataset is', metrics.mean_ 
absolute error(tf dm regressor y predict, y test) 

»»»print "The mean squared error of Tensorflow INN Regressor cn boston dataset is', metrics.mean - 
Squared error(tf dnn regressor y predict, y test) 

>>>print "The R- squared value of Tensorflow INN Regressor on boston dataset is', metrics.r2 score(tf 
.dnn regressor y predict, y test) 


step #1, avg. loss: 640.79572 
Step #1001, epoch #125, avg. loss: 25.67079 
Step # 2001, epoch # 250, avg. loss: 
Step # 3001, epoch # 375, avg. loss: 2. 
Step # 4001, epoch 4 500, avg. loss: 
Step # 5001, epoch # €/5, avg. loss: 
Step # 6001, epoch #750, avg. loss: 1.45105 

Step #7001, epoch # 875, avg. loss: 1.30371 

Step # 8001, epoch # 1000, avg. loss: 1.20998 

Step # 9001, epoch #1125, avg. loss: 1.12960 

‘The mean absoluate error of Tensorflow INN Fegressor an boston dataset is 2.52779822968 
‘The mean squared error of Tensorflow DNN Regressor on boston dataset is 14.2553529174 
The R- squared value of Tensorflow ONN Regressor on boston dataset is 0.803518644048 








>>># 使 用 Scikit- leam 的 RandamForestRegressor, 
>>> frm skleam.ensenble import RandamForestFegressor 
>>> rfr- RandamForestRegressor () 


>>> rir.fit (K train, y train) 
>>> rfr y predict- rfr.predict(X test) 


>>># 输 出 Scikit 中 FandomgorestFegressor 模 型 的 回归 性 能 。 

»»»print "The mean absoluate error of Skleam Random Forest Regressor on boston dataset is', metrics. | 
mean absolute error(rfr y predict, y test) : 
>>>print "Ihe mean squared error of Sklearn Random Forest Regressor on boston dataset is', metrics. 
mean squared error(rfr y predict, y test) : 
>>> print "Ihe R- squared value of Sklearn Randkm Forest Regressor on boston dataset is', metrics.r2 - 
score(rfr y predict, y test) 


‘The mean absoluate error of Sklearn Random Forest Regressor an boston dataset is 2.50771653543 
‘The mean squared error of Sklearn Random Forest Fegressor on boston dataset is 14.3741984252 
‘The R- squared value of Sklearn Randon Forest Regressor on boston dataset is 0.796699065196 


- 


通过 观察 代码 76 的 一 系列 输出 ,可 以 对 比 发 现 深度 神经 网 络 的 确 可 以 表现 出 更 高 的 
性 能 。 但 是 ,需要 提醒 读者 的 是 , 越 是 具备 描述 复杂 数据 的 强力 模型 , 越 容 易 在 训练 时 陷 
入 过 拟 合 (Overfitting)。 这 一 点 ,请 读者 在 配置 DNN 的 层 数 和 每 层 特征 元 的 数量 时 要 特 
别 注 意 。 
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对 于 想 要 深入 了 解 机 器 学 习 模 型 ,并且 把 他 们 真正 用 于 实践 的 读者 而 言 ,这 一 章 的 内 
容 是 必 不 可 少 的 。 事 实 上 ,不 论 是 对 数据 的 预 处 理 , 还 是 对 于 模型 参数 的 限制 以 及 超 参数 
的 调 优 ,甚至 是 使 用 更 为 强力 的 模型 与 框架 ,都 很 有 可 能 显著 地 提升 性 能 。 尽 管 从 科学 研 
究 的 角度 ,许多 人 关注 如 何 设计 模型 与 编写 训练 参数 的 算法 ;但 是 ,作为 工业 界 的 从 业 人 
员 和 机 器 学 习 任务 的 实践 者 ,更 加 注重 如 何 最 大 限度 地 发 挥 既 有 模型 在 特定 数据 分 析 任 
务 中 的 性 能 。 

因 篇 幅 限 制 ,无 法 逐一 对 介绍 的 新 模型 进行 性 能 提升 的 实践 ,希望 感 兴趣 的 读者 参考 
本 章节 的 示例 代码 http://pan. baidu. com/s/1dENAUTr 以 及 http://pan. baidu. com/ 
s/1mhQe4g4 进一步 学 习 , 并 欢迎 致 信 讨 论 。 


如 果 读 者 已 经 阅读 到 这 一 个 章节 ,那么 非常 高 兴 地 通知 您 : 截至 目前 ,您 所 学 习 到 的 
理论 技术 已 经 足以 应 对 现实 生活 中 常见 的 问题 。 因 此 ,本 书 的 最 后 一 个 章节 将 带领 读者 
正式 进入 机 器 学 习 的 竞赛 实战 。 我 们 选取 目前 世界 上 最 为 流行 ,同时 也 是 认可 度 最 高 , 参 
与 人 数 最 多 的 线 上 竞赛 平台 Kaggle(https://www. kaggle. com/) ;并且 将 逐步 教会 大 家 
如 何 使 用 学 习 过 的 模型 和 编程 技巧 挑战 业界 IT 公司 .科研 院 所 在 Kaggle 上 发 布 的 若干 
机 器 学 习 任务 。 


pa kaggle 平 台 简介 


Kaggle 是 当前 世界 上 最 为 流行 的 ,采用 众 包 (Crowdsouring) 策 略 ,为 科技 公司 、 研 究 
院 所 乃至 高 校 课程 提供 数据 分 析 与 预测 模型 的 竞赛 平台 。 该 平台 成 立 于 2010 年 4 月 ,由 
现任 CEO 的 Anthony Goldboom 等 人 创立 。 公 司 总 部 设 在 美国 加 州 旧金山 市 。 

Kaggle 平台 设 立 的 宗旨 在 于 : 汇聚 全 世界 从 事 数 据 分 析 与 预测 的 专家 以 及 兴趣 爱 
好 者 的 集体 智慧 ,利用 公开 数据 竞赛 的 方式 ,为 科技 公司 、 研 究 院 所 和 高 校 课 程 中 的 研发 
课题 ,提供 有 效 的 解决 方案 。 这 一 初衷 使 得 问题 提出 者 与 解决 者 获得 了 双赢 。 

一 方面 ,许多 科技 公司 、 研 究 院 和 高 校 拥 有 大 量 的 数据 分 析 任务 和 研发 课题 。 如 果 仅 
仅 依靠 有 限 的 内 部 研究 人 员 处 理 和 分 析 ; 不 但 耗费 大 量 的 时 间 ,而 且 支付 给 这 些 拥 有 博士 
学 位 的 研究 人 员 的 薪资 也 是 极其 高 昂 的 。 这 也 是 为 什么 只 有 少数 实力 雄厚 的 高 新 科技 公 
司 拥有 内 部 的 研究 院 , 如 Google Research, Microsoft Research, 百度 深度 学 习 研 究 院 等 
等 。 如 果 仅 仅 拿 出 一 小 部 分 奖金 (迄今 为 止 ,Kaggle 平台 上 最 常见 的 悬赏 是 $50 000, 大 
约 是 一 位 在 美国 IT 企业 工作 的 普通 职位 科研 人 员 一 个 季度 的 薪水 ), 便 可 以 向 全 世界 的 
聪明 人 征集 解决 方案 , 那 何 乐 而 不 为 呢 ? 

另 一 方面 , 越 来 越 多 有 从 事 数据 分 析 与 预测 工作 意愿 的 兴趣 爱好 者 ,因为 难以 获得 大 





量 可 供 分 析 的 数据 ,使 得 自己 的 才华 难以 施展 。 造 成 这 一 问题 的 主要 原因 在 于 ,科研 机 构 
和 大 型 企业 非常 看 重 数据 的 价值 ,特别 是 那些 和 自己 主流 业务 相关 的 数据 。 比 如 ,Google 
服务 器 上 所 存储 的 全 世界 互联 网 用 户 的 搜索 日 志 。 对 于 外 部 个 体 的 兴趣 爱好 者 ,要 想 获 
得 这 些 企业 和 科研 机 构 的 数据 几乎 是 不 可 能 的 事 。 但 是 ,如 果 有 一 个 像 Kaggle 这 样 著名 
的 大 型 平台 , 随 着 这 上 面 聚 拢 的 兴趣 爱好 者 甚至 行业 专家 越 来 越 多 ,大 型 企业 和 科研 机 构 
也 会 逐渐 信赖 这 些 参 赛 者 ,并 且 放 心地 提供 一 些 重要 数据 。 

如 果 读 者 是 第 一 次 登录 Kaggle 平台, 如 图 4-1 所 示 , 那 么 您 可 以 查阅 所 有 的 竞赛 资 
料 , 只 是 无 法 下 载 数 据 和 提交 结果 。 
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图 4-1 Kagge 平台 主页 


如 果 已 经 注册 一 个 Kaggle 账户 并 且 通 过 邮箱 验证 之 后 , 便 可 以 选择 其 中 一 个 竞 
赛 ?, 并 且 按 照 如 下 的 流程 参与 即 可 。 

* TRAH Download): 几乎 所 有 类 型 的 Kaggle 项 目 都 会 在 线 提供 数据 下 载 。 并 

且 , 如 图 4-2 所 示 , 用 户 需 要 在 第 一 次 下 载 数据 的 时 候选 择 接受 竞赛 要 求 的 条 款 ， 


O 拓展 小 贴 士 32: 平台 上 有 正在 进行 的 竞赛 和 已 经 完成 的 竞赛 两 种 类 型 。 对 于 正在 进行 的 竞赛 ,只 要 参与 并 且 提 交 过 结果 ,都 会 在 
账户 中 有 相应 记录 ;同样 可 以 选择 已 经 完成 的 竞赛 ,只 是 不 会 对 您 在 平台 的 积分 有 任何 贡献 。 
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图 4-2 Kaggle 竞赛 数据 下 载 页 面 


。 搭建 模型 (Build) : 如 果 已 经 在 自己 的 电脑 上 完整 配置 了 搭建 模型 所 需要 的 编程 
环境 和 工具 包 , 或 者 拥有 运算 能 力 更 加 强大 、 资 源 更 加 丰富 的 服务 器 平台 ;那么 ， 
在 本 地 计算 机 上 设计 学 习 模 型 无 疑 是 一 个 好 的 选择 。 但 是 ,如 果 手 头 没有 配置 完 


善 的 运算 设备 的 话 ,Kaggle 则 为 您 提供 了 可 以 线 上 编程 的 云 平台 。 


Kaggle 的 云 


平台 支持 多 种 适合 建 模 的 编程 语言 ,如 图 4-3 所 示 , 包 括 比 较 流行 的 Python, R 
等 ;并 且 这 个 平台 无 一 例外 地 安装 了 所 有 本 书 中 提 到 的 工具 包 。 美 中 不 足 的 是 ， 
当下 这 个 平台 无 法 为 每 位 用 户 提供 过 多 的 计算 资源 ,普通 账户 只 能 使 用 512MB 
的 硬盘 空间 ,而 且 单 个 运算 脚本 最 多 可 以 运行 20 分 钟 。 
* HEAR (Submit): Kaggle 不 会 要 求 参 赛 者 提交 编程 源 代码 ,只 需 根据 限定 的 格 


式 上 交 最 终 预测 结果 的 文件 即 可 。 


- 般 情况 下 ,每 个 竞赛 都 独立 的 格式 范例 ,并 


且 与 训练 数据 等 一 起 提供 给 参赛 者 下 载 。 参 赛 者 在 第 一 次 提交 结果 文件 的 时 候 ， 
Kaggle 会 询问 选手 参与 竞赛 的 组 队 方 式 , 如 图 4-4 所 示 , 即 个 人 还 是 团队 。 
提交 的 文件 符合 限定 的 格式 ,平台 会 根据 目标 竞赛 所 设计 的 评估 程序 ,对 选手 当 
前 提交 的 结果 即时 做 出 评价 和 排名 ;并 且 ,如 图 4-5 Bros. 多 数 竞 赛 都 会 限制 参赛 
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图 4-3 Kaggle 在 线 编程 页 面 
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图 4-4 Kagge 参赛 组 队 方式 选择 
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图 4-5 Kaggle 竞赛 结果 提交 页 面 


者 每 天 提交 结果 的 次 数 ,这 一 点 希望 读者 留意 。 当 竞赛 结束 之 后 ,Kaggle 会 以 每 
位 参赛 者 历史 最 好 成 绩 做 出 最 终 的 排名 。 
按照 上 述 三 个 步骤 便 可 以 尽情 在 Kaggle 上 实战 了 。 在 后 续 的 章节 里 ,将 介绍 三 个 长 
期 在 Kaggle 平 台 上 挂 载 的 实践 任务 ,它们 是 : 4.2 Titanic EER Ze BUR 4. 3 IMDB 影评 
得 分 估计 以 及 4.4 MNIST 手写 体 数字 图 片 识别 。 同 时 为 了 让 大 家 更 快 熟悉 3.2 节 介 绍 
过 的 流行 机 器 学 习 模型 和 框架 ,我 们 在 解决 这 些 竞赛 任务 的 时 候 不 仅 使 用 了 Scikit-learn 
中 的 经 典 模型 ,而 且 分 别 在 “4. 2 Titanic 坎 难 乘客 预测 ” 节 中 额外 采用 了 XGBoost 模型 ; 
在 “4.3 IMDB 影评 得 分 估计 ” 节 中 使 用 了 Word2Vec 词 向 量 技术 ;甚至 在 “4.4 MNIST F 
写 体 数字 图 片 识别 ” 节 使 用 了 Google Tensorflow 的 深度 学 习 框 架 。 
尽管 因 能 力 所 限 ,我 们 在 书 中 的 代码 无 法 帮助 读者 们 取得 理想 的 竞赛 名 次 :但 是 , 笔 
者 由 里 地 希望 这 些 代 码 至 少 可 以 起 到 “抛砖引玉 ”的 作用 ,为 各 位 今后 更 加 出 色 的 实战 纺 
程 提供 些许 参考 。 


n2 42 Titmic BERSIN 


与 “2. 1. 1. 5 决策 树 ” 节 所 探索 的 任务 一 样 ,Kaggle 也 在 其 平台 上 发 布 了 “泰坦 尼克 





Pyho 机 器 学 习 及 实践 


号 急难 乘客 ”的 预测 任务 ;并 且 这 个 预测 问题 一 直 作为 其 平台 的 教学 任务 , 供 初 学 者 熟悉 
Kaggle 的 竞赛 流程 。 时 至 今日 已 有 几 千 名 选手 设计 了 他 们 的 模型 ,同时 网 站 的 自动 评估 
系统 也 对 他 们 所 提交 的 结果 做 了 测试 ,并 且 发 布 了 排名 。 

因此 ,作者 打算 带领 读者 ,通过 这 项 兼 具有 纪念 和 缅怀 意义 的 任务 ,来 完成 一 次 真正 
的 实战 演练 ,并 与 他 人 同 台 竞技 。 这 跟 之 前 我 们 在 书 中 的 实践 略 有 不 同 的 是 , Kaggle 上 
的 实战 问题 都 不 会 提供 测试 集 的 正确 答案 ,包括 这 项 教学 任务 。 所 以 ,笔者 期 待 大 家 不 断 
地 尝试 书 中 提 及 的 机 器 学 习 模 型 ,并 且 竭 尽 所 能 地 优化 它们 。 只 有 这 样 , 朋 友 们 才能 从 不 
懈 的 实战 中 积累 经 验 ,最 终 达 到 熟练 掌握 机 器 学 习 的 应 用 技巧 ,快速 构建 机 器 学 习 系统 的 
目的 。 

正如 图 4-6 所 示 ,在 Titanic 需 难 乘客 预测 任务 的 竞赛 主页 的 左边 栏 (Dashboard) ,您 
不 仅 可 以 查阅 当前 竞赛 的 信息 (Information) ,包括 竞赛 的 描述 (Description) AI fap iE ffr He 
交 结果 (Evaluation) `. 竞 赛 规则 (Rules) 还 有 奖金 悬赏 的 细节 (Prizes) ;还 能 够 在 Data 页 面 
中 下 载 必要 的 数据 ,进而 在 Make a submission 页 面 提交 结果 。 
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et on Kaggle 
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The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On 
April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an 
iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy 
shocked the international community and led to better safety regulations for ships. 


图 4-6 Titanic SEXESE & PLE RE XE E RO 














t 下 载 数据 : 虽然 我 们 可 以 在 Data 页 面 看 到 7 个 文件 下 载 。 但 是 ,用 于 竞赛 的 数据 
只 有 train. csv(59.76KB) 和 test. csv(27. 96KB) 文 件 。 笔 者 这 里 下 载 这 两 份 数据 


© https://www. kaggle. com/c/titanic 


到 本 地 计算 机 的 Datasets/Titanic 文件 夹 下 。 

。 搭建 模型 : 接 下 来 ,读者 可 以 有 两 种 选择 编写 代码 ,一 种 是 在 自己 的 本 地 计算 机 
编写 代码 ; 另 一 种 是 直接 在 Kaggle 平台 上 编写 代码 并 在 线 运 行 。 对 于 后 者 ,您 只 
需 在 左边 栏 点 击 New Script, 进 入 类 似 于 图 4-2 所 示 的 Kaggle 在 线 编程 页 面 , 按 
照 所 给 的 代码 范例 ,并 注意 文件 读 写 的 正确 路 径 即 可 。 这 里 只 给 出 本 地 IPython 
Notebook 中 运行 的 代码 。 如 下 面 的 代码 77 所 示 , 不 仅 使 用 随机 森林 分 类 器 与 
XGBoost 模型 ,而且 均 采用 交叉 验证 的 方法 搜索 最 优 的 超 参数 组 合 。 


[ 代码 77: Titanic 坎 难 乘客 预测 竞赛 编码 示例 


>>># 导 人 Pandas 方 便 数据 读 取 和 预 处 理 。 
>>> import pandas as pd 


>>># 分 别 对 训练 和 测试 数据 从 本 地 进行 读 取 。 

>>> train- pd.read csv('. ./Datasets/titanic/train.csv') 

>>> test- pd.read csv (' ../Datasets/titanic/test.csv') 

>>>+#+ 先 分 别 输出 训练 与 测试 数据 的 基本 信息 。 这 是 一 个 好 习惯 ,可 以 对 数据 的 规模 .各 个 特征 
的 数据 类 型 以 及 是 否 有 缺失 等 ,有 一 个 总 体 的 了 解 。 

>>> print train.info() 

>>> print test.info() 


ppm] 
É 
i 


dtypes: float64 (2), inté4 (5), dbject (5) 





memory usage: 90.5- KB 
None 


<class 'pandas.core.frame.DataFrame'» 
Inté4Index: 418 entries, 0 to 417 
Data colums (total 11 colums): 
Passengerid 418 non-null int64 
Fclass 418 non- mull int64 

Name 418 ncn- null cbject 

Sex 418 nom- null d»ject. 

Ige 332 ncn- null. floated 

SibSp 418 non- null int64 

Parch 418 non- null int64 

Ticket 418 non-null d»ject. 

Fare 417 non- null float64 

Cabin 91 non- null dbject. 
Enbarked 418 non- null cbject 

dtypes: floate4 (2), inte4(4), dbject (5) 
memory usage: 39.2+ KB 

None 


>>># 按 照 我 们 之 前 对 Titanic 事 件 的 经 验 , 人 工 选 取 对 预测 有 效 的 特征 。 
>>> selected features- ['Pclass', 'Sex', 'Age', "Embarked', 'SibSp', 'Parch','Fare'] 


>>>X train-train[selected features] 
>>>X test-test[selected features] 


>>> y train- train['Survived'] 


>>># 通 过 我 们 之 前 对 数据 的 总 体 观 察 ,得 知 Erbarked 特 征 存在 缺失 值 , 需 要 补 完 。 
>>>print x train[ "Ebarked'] .value oounts() 
>>>print X test['Erbarked'].value cants () 


S 64 
c 18 
7 





>>># 对 于 mbarked 这 种 类 别 型 的 特征 ,我 们 使 用 出 现 频率 最 高 的 特征 值 来 填充 ,这 也 是 相对 可 以 
减少 引入 误差 的 一 种 填充 方法 。 


>>> X_train|["Erbarked'].fillna('s', inplace- True) 
>>>X test['Enbarked'] .fillna('s', inplace- True) 


>>># 而 对 于 zge 这 种 数值 类 型 的 特征 ,我 们 习惯 使 用 求 平均 值 或 者 中 位 数 来 填充 缺失 值 , 也 是 相 
对 可 以 减少 引入 误差 的 一 种 填充 方法 。 

>>>X train['Age'].fillna(X train['Age!] mean(), inplace- True) 

>>>X_test['Age"] .fillna(X test['Age'] mean ) , inplace- True) 

>>>X test['Fare'].fillna(X test['Fare'] .mean(), inplace- True) 


>>># 重 新 对 处 理 后 的 训练 和 测试 数据 进行 查验 ,发 现 一 切 就 绪 。 
>>>X train.info() 


«class "pandas.core. frame. DataFrame'> 
‘Int@4Index: 891 entries, 0 to 890 

Data colums (total 7 colums) : 
Pelass 891 non- null int64 


Sex 891 non- mll abject 
Ke 891 ncn- mull float64 
Enbarked 891 non- mull cbject 
Sibsp 891 non- mull int64 
Parch 891 non- null int64 
Fare 891 non- mill float64 


dtypes: floaté4 (2), int64 (3), cbject (2) 
memory usage: 55.7+ KB. 


>>>X test.info() 
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<class 'pandas.core.frame.DataFrame'» 
Inté4Index: 418 entries, 0 to 417 
Data colums (total 7 colums) : 
Felass 418 non- mall int64 


Sex 418 nm null cbject 
Me 418 nm- null floaté4 
Bibarked 。 418 non-null cbject 
Sibsp 418 non- null int64 
Parch 418 nm- mll int64 
Fare 418 nm- mull floaté4 


dtypes: float64(2), inte4(3), dbject (2) 
memory usage: 26.1 KB 


>>># 接 下 来 便 是 采用 Dictvectorizer 对 特征 向 量化 。 
>>> from sklearn.feature extraction import DictVectorizer 
>>> dict_vec= DictVectorizer (sparse= False) 
>>>X trainr dict vec.fit transfom( train.to dict (orient= 'record')) 
>>> dict vec.feature names - 
[age 
"Enbarked- C', 
"Enbarked= Q', 
"Inbarked- S*, 


'Sex- ferale', 
'Sex-male', 
sibspy] 
>>>X test-dict vec.transformm(X test.to dict (orient- 'record') ) 
222 4 JÅ skleam.ensenble 中 导入 RandmForestClassifier, 
>>> fran skleam.ensanble import RandonforestClassifier 
>>># 使 用 默认 配置 初始 化 RandamforestClassifier, 


>>> rfc- RarckmiForestClassi fier () 


>>># 从 流行 工具 包 xgpoost 导入 XEBclassifier 用 于 处 理 分 类 预测 问题 。 
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>>> fran xoocost. import XEBClassifier 
>>># 也 使 用 默认 配置 初始 化 XEBClassifier。 
>>> x= XiClassi fier () 


>>> frm skleam.cross validation import cross val score 

>>># 使 用 5 折 交叉 验证 的 方法 在 训练 集 上 分 别 对 默认 配置 的 RandrmEorestclassifier 以 及 
XEBclassifier 进 行 性 能 评估 ,并 获得 平均 分 类 准确 性 的 得 分 - 

>>> cross val score(rfc, X train, y train, cv- 5) -mean() 

0.80591729091594499 

»»»cross val sore (gbc, X train, y train, c= 5) mean () 

0.81824559798311003 


>>># 使 用 默认 配置 的 FandmEorestclassifier 进 行 预测 操作 。 

»»»rfc.fit(X train,y train) 

»»»rfc y predict- rfc.predict(X test) 

>>> rfc_submission= pd.DataFrame (('FassengerId': test['PassengerId'], 'Survived': rfc y predict}) 
>>># 将 默认 配置 的 RandomPorestClassifier 对 测试 数据 的 预测 结果 存储 在 文件 rtc sumissicn. 
csv 中 。 

»»»rfc sümission.to csv('../Datasets/Titanic/rfc sumission.csv', index- 

False) 


>>># 使 用 默认 配置 的 xsBclassifier 进 行 预测 操作 。 

>>> xobc. fit X train, y train) 

XGEClassifier(base score- 0.5, colsample bylevel=1, colsample bytree- 1, 
game=0, learning rate-0.1, mex delta step= 0, max depth- 3, 
min child weight-1, missing=None, n estimators- 100, nthread-- 1, 
chjective= 'binary:logistic', reg alpha-0, reg latbde=1, 
scale pos weight- 1, seed=0, silent- True, subsample- 1) 


>>> xg y predict- xgbc.predict (X test) 

>>># 将 默认 配置 的 Xeclassifier 对 测试 数据 的 预测 结果 存储 在 文件 xoc sumission 
EUM 

>>> xgbc_submission= pd.DataFrame (( 'PassengerId': test ['PassengerId'], 

'Survived': xgoc_y predict}) 

xoc summission.to csv('../Datasets/Titanic/xjbc sutmission.csv', index- 

False) 





>>># 使 用 并 行 网 格 搜索 的 方式 寻找 更 好 的 超 参数 组 合 ,以 期 待 进一步 提高 xcBclassifier 的 预测 
性 能 。 : 
>>> fran sklearn.grid search inport Gridsearchcv 

>>>params= {'max_depth':range(2, 7), "n estimators':range(100, 1100, 200), 

"leaming rate": [0.05, 0.1, 0.25, 0.5, 1.01) 


>>> ugbc_best= XEBClassifier() 
>>> gs= GridSearchCv (xoc best, params, n jcbs-- 1, c= 5, verbose- 1) 


»»»gs.fit(X train, y train) 


Fitting 5 folds for each of 125 candidates, totalling 625 fits 


[Parallel(n jdos-- 1)]: Done 122 tasks | elapsed: 10.05 
[Parallel(n jdos-- 1)]: Done 278 tasks | elapsed: 21.75 
[Parallel(n jdos-- 1)]: Done 528 tasks | elapsed: 45.45 


[Parallel(n jdos-- 1)]: Done 625 out of 625 | elapsed: 54.8s finished 


Gridsearchcv (c= 5, error. score- 'raise', 
estimator» XsClassifier(base score= 0.5, colsample_bylevel= 1, 
colsample bytree- 1, 
game= 0, learning rate-0.1, max delta step-0, max depth 3, 
min child weight- 1, missing=None, n estimators- 100, nthreade- 1, 
dojective- 'binary:logistic', reg alpha-0, reg lanbda-1, 
scale pos weighb- 1, seed- 0, silent- True, subsanple- 1), 
fit params- (), iide True, n jdbs-- 1, 
param grid= ('n estimators': [100, 300, 500, 700, 900], "learning rate': [0.05, 0.1, 0.25, 0.5, 1. 
0], "max depth': (2, 3, 4, 5, 61), 
pre dispatd- '2* n jdbs', refit- True, scoring=None, verbose= 1) 


>>># 查 验 优化 之 后 的 xsaclassifier 的 超 参数 配置 以 及 交叉 验证 的 准确 性 。 
>>> print gs.best score 

»»»print gs.best param - 

0. 835016835017 

("n estimators': 100, "learning rate': 0.1, "mex depth': 5) 


>>># 使 用 经 过 优化 超 参 数 配 置 的 XEBclassifier 对 测试 数据 的 预测 结果 存储 在 文件 xoc best | 


Sumissicn.csv 中 。 


>>> bc best y predict- gs.predict (X test) 
| >>> xgbc_best_submission= pd.Datakrame (| 'PassengerTd': test ['PassengerTd'], 
|o CSurvived': xgoc best y predict]) 
>>> gbc best sutmission.to csv('../Datasets/Titenic/wpc best sümissicn.cwv', index- False) 


zl 


提交 结果 : 着 重 注意 的 是 ,在 今后 的 实战 中 ,一 定 要 严格 遵守 竞赛 数据 中 所 提供 的 样 
例 提交 文件 的 格式 。 因 为 所 有 参赛 选手 所 提交 的 文件 ,都 会 在 网 站 后 台 由 程序 自动 按照 
Evaluation 中 的 评估 函数 进行 评价 ,而 且 稍 有 不 符合 格式 的 提交 文件 都 不 会 被 评估 程序 
所 考量 ,更 不 必 说 取得 竞赛 的 名 次 。 

按照 代码 77 所 设 定 的 输出 ,得 到 3 个 用 于 提交 预测 结果 的 文件 : rfc_submission 
.Csv,xgbc_submission. csv 以 及 xgbc_best_submission. csv; 并 且 如 图 4-7 所 示 , Kaggle 
竞赛 平台 的 自动 测评 系统 给 出 了 上 述 3 个 提交 文件 的 最 终 性 能 表现 。 图 4-7 所 示 的 
Kaggle 测评 结果 也 许 有 些 出 平 意 料 ,我 们 原本 以 为 经 过 超 参数 搜索 和 优化 之 后 的 模型 可 
以 取得 更 好 的 预测 性 能 ,但 是 事实 恰恰 相反 。 在 今后 的 实践 中 也 有 可 能 出 现 这 样 的 情况 ， 
究 其 原因 是 因为 无 法 保证 现实 数据 都 来 源 于 同一 种 分 布 ,因此 尽管 模型 经 过 交叉 验证 和 
超 参数 搜索 等 步骤 处 理 , 也 不 能 保证 在 所 有 情况 下 都 能 取得 更 高 的 性 能 。 








Public 
Submission Files Score Selected? 
Wed, 03 Feb 2016 02:37:30 xgbc best submissio 074163 G 
Edit description. n.csv 
Wed, 03 Feb 2016 02:35:45 Xgbc submission.csv 077512 @ 
Edit description. 
Wed, 03 Feb 2016 02:31:58 rfc submission.csv 0.75598 ®© 
Edit description. 





图 4-7 Titanic 起 难 乘客 预测 竞赛 的 提交 结果 


pss IWDB 影 评 得 分 估计 


“4.2 Titanic 震 难 乘客 预测 一 节 所 使 用 的 数据 ,不 论 是 其 形式 还 是 规模 都 无 法 与 大 量 
现实 分 析 任务 涉及 的 数据 相当 。 因 此 在 本 节 , 如 图 4-8 所 示 , 我 们 另 选 Kaggle 上 的 一 项 
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竞赛 任务 : IMDB 影评 得 分 估计 。 与 上 节 结 构 化 良好 的 小 规模 档案 数据 不 同 的 是 ,本 节 
的 竞赛 任务 要 求 参 赛 者 分 析 电 影评 论 网 站 的 留言 ,判断 每 条 留言 的 情感 倾向 。 不 仅 在 规 
模 上 要 比 泰坦 尼克 号 乘客 数据 大 上 几 个 量 级 ,而 且 原始 数据 也 不 及 之 前 的 格式 化 。 





(MIST T] Bag of Words Meets Bags of Popcorn 


Dashboard. Competition Detalls » Getthe Data » Make a submission 
Home ^ 
ata ] : A 
esM Er S Use Google's Word2Vec for movie reviews 
Information ° 


n this tutorial competition, we dig a little "deeper" into sentiment analysis. Google's 







» Such as recurrent neural nets or 
deep neural nets, bi lent This tutorial focuses on 
Word2Vec for sentiment analysis. 








Sentiment analysis is a challenging subject In machine learning. People express their 





图 4-8 IMDB 影评 得 分 估计 竞赛 主页 了 


下 载 数据 : IMDB 影评 得 分 估计 竞赛 任务 一 共 为 参赛 者 提供 了 4 份 不 同 的 数据 文 
件 ,其 中 包括 : 已 经 标 有 情感 倾向 的 训练 文件 labeledTrainData. tsv, 里面 有 
25000 条 影评 以 及 对 应 的 情感 倾向 标识 ; 待 测试 文件 testData. tsv, 同 样 也 另 有 
25000 条 电影 评论 ;还 有 一 份 无 标注 但 是 数据 量 更 大 的 影评 文件 unlabeldTrainData. 
tsv; 最 后 是 一 份 样 例文 件 sampleSubmission. csv 用 来 告知 参赛 者 最 终结 果 的 提 
交 格 式 。 

搭建 模型 : 接 下 来 分 别 采用 Scikit-learn 中 的 朴素 贝 叶 斯 模型 以 及 隶属 于 集成 模 
型 的 梯度 提升 树 分 类 模型 ,对 电影 评论 进行 文本 情感 分 析 。 具 体 而 言 ,如 代码 78 
所 示 , 在 朴素 贝 叶 斯 模型 中 依然 使 用 “ 词 袋 法 ”对 每 条 电影 评论 进行 特征 向 量化 ， 
并 且 借助 CountVectorizer 和 TfidfVectorizer; 另 一 方面 , 先 利用 无 标注 影评 文件 
中 训练 词 向 量 , 然 后 将 每 条 电影 评论 中 所 有 词汇 的 平均 向 量 作 为 特征 训练 梯度 提 
升 树 分 类 模型 。 





四 ”https://www. kaggle. com/c/word2vec-nlp-tutorial. 


[ 代码 78. IMDB 影评 得 分 估计 竞赛 编码 示例 了 
(00 FFA pandas 用 于 读 取 和 写 信 数据 操作 - 
>>> import pandas as pd 


>>># 从 本 地 读 和 人 训练 与 测试 数据 集 。 
>>> train pd.read csv('../Datasets/IMB/labeledrrainpata .tsv', delimiter= '\t') 
>>> test- pd.read csv ('../Datasets/IMB/testData.tsv', delimiter="\t') 


>>># 查 验 一 下 前 几 条 训练 数据 。 

















>>> train.head() 
id sentiment review 
0 | 5848 m With all this stuff going down at the moment w... 
1 | 2381.9 1 Vite Classic War of the Worlds\"by Timothy Hi... 
2 | 7593 0 ‘The film starts with a manager (Nicholas Bell)... 
3 | 3604 0 Tt mist be assumed that those who praised this ... 
4| 9495 8 i Superbly trashy and wondrously unpretentious 8... 











>>># 查 验 一 下 前 几 条 测试 数据 。 
>>> test.head() 


id review 





0 | 12311 10 Naturally in a film who's main theres are of m... 











1 | 8348 2 This movie is a disaster within a disaster fil... 
2 | 5828 4 All in all, this is a mie for kids. We saw i... 
3| 862 Afraid of the Dark left me with the impression... 














4| 12128 7 A very accurate depiction of small time mb li... 





>>># 从 bs4 导 和 Beautifiulsoup 用 于 整洁 原始 文本 。 
>>> fran bs4 import Beautifulsoup 

>>># 导 人 正则 表达 式 工具 包 。 

>>> import re 


四 ”部 分 参考 自 https://github. com/wendykan/DeepLearningMovies 





>>>+ 从 nltk.corpus 里 导入 停 用 词 列表 。 
>>> fran nltk.corpus import stopwords 


>>># 定 义 review to text 函数 ,完成 对 原始 评论 的 三 项 数据 预 处 理 任务 。 
>>> GEf review to text (review, remove stopwords): 

>>># 任 务 1: 去 掉 htm 标记 。 

>>> raw text-BeautifulSoup(review, 'html').get text() 

HE 2: 去 掉 非 字母 字符 。 

>>>  letters- re.sib(' [a- zA- Z]', ' ', raw text) 

>>> words- letters.lower().split() 

>>> HEF 3. 如 果 remove. stopwords 被 激活 , 则 进一步 去 掉 评 论 中 的 停 用 词 。 
>>> if remove_stopwords: 

>>> stop words= set (stopwords.words ("english")) 

>>> words- [w for w in words if w not in stop words] 

>>># 返 回 每 条 评论 经 此 三 项 预 处 理 任务 的 词汇 列表 。 

>>> return words 


>>>+ 分 别 对 原始 训练 和 测试 数据 集 进行 上 述 三 项 预 处 理 。 
>>>X train- [] 

>>> for review in train['review!]: 

>>> X train.append(' '.join(review to text (review, True))) 
>>>X test- [] 

>>> for review in test ['review']: 

>>> X test.append(' '.join(review to text (review, True))) 


>>> y train- train['sentiment'] 


>>># 导 入 文本 特性 抽取 器 Countvectorizer 与 TfidfVectorizer, 

>>> from sklearn.feature extraction.text import CountVectorizer, TfidfVectorizer 
>>> # MA Scikit- leam 中 导入 朴素 贝 叶 斯 模型 。 

>>> frm sklearn.naive bayes import MiltinomialNB 

>>># 导 人 Pipeline 用 于 方便 搭建 系统 流程 。 

>>> fran sklearn.pipeline import Pipeline 

>>># 导 人 Gridsearchcv 用 于 超 参 数组 合 的 网 格 搜索 。 

>>> from skleam.grid search import Gridsearchov 





>>># 使 用 Pipeline 搭 建 两 组 使 用 朴素 贝 叶 斯 模型 的 分 类 器 ,区 别 在 于 分 别 使 用 Countvectorizer 
与 THidfVectorizer 对 文本 特征 进行 抽取 。 

>>> pip count= Pipeline([ (ocunt: vec', Gountyectorizer (aralyzer= "word’)), (wb', MiltinamialNB 0))]) 
>>>pip tfidf = Pipeline([ ("tfidt vec', TfidfVectorizer(analyzer- ward"), (rb', MaltinamialNs())]) 


>>># 分 别 配置 用 于 模型 超 参 数 搜索 的 组 合 。 

»»»params count- {'count_vec_binary': [True False], 'comt vec ngram range':[(1, 1), (1, 2)], " 
mi alpha':[0.1, 1.0, 10.0]) 

>>> params tfidf-['tfidf vec binary':[True, False], 'tfidf vec ngram range':[(1, 1), (1, 2)], ' 
mi alpha':[0.1, 1.0, 10.0]) 


>>># 使 用 采用 4 折 交 叉 验证 的 方法 对 使 用 countvectorizer 的 朴素 贝 叶 斯 模型 进行 并 行 化 超 参数 
WR. 

>>> gs_count=GridSearchCv (pip count, params count, c= 4, n jdos-- 1, verbose= 

1 

>>>gs oumt.fit(X train, y train) 


>>>+ 输 出 交叉 验证 中 最 佳 的 准确 性 得 分 以 及 超 参数 组 合 。 
>>> print gs count.best score - 
>>> print gs count.best params - 


Fitting 4 folds for each of 12 candidates, totalling 48 fits 
0.88128 

Ümrb alpha': 1.0, 'count_vec_binary': True, 'oount vec ngram range': (1, 2)} 
[Parallel(n jdbs--1)]: Done 48 cut of 48 | elapsed: 11.4min finished 


>>># 以 最 佳 的 超 参 数组 合 配置 模型 并 对 测试 数据 进行 预测 。 
>>> oont y predict-gs cont.predict (X test) 


>>># 使 用 采用 4 折 交 叉 验 证 的 方法 对 使 用 Tfidfvectorizsr 的 朴素 贝 叶 斯 模型 进行 并 行 化 超 参 数 
WR. 

>>>gs_tfidf=Gridsarchtv (pip tfidf, params tfidf, o= 4, n jdos-- 1, verbos=1) 

>>>gs tfidf.fit(X train, y train) 

>>># 输 出 交叉 验证 中 最 佳 的 准确 性 得 分 以 及 超 参 数组 合 。 
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>>>print gs tfidf.best score - 
>>>print gs tfidf.best params - 


Fitting 4 folds for each of 12 candichtes, totalling 48 fits 

0.88736 

{'tfidf vec ngram rang": (1, 2), 'tfidf vec hinary': True, "mb alpha’: 0.1) 
[Parallel(n jdos--1)]: Done 48 out of 48 | elapsed: 12.&min finished 


>>># 以 最 佳 的 超 参数 组 合 配置 模型 并 对 测试 数据 进行 预测 。 
>>>tfidf y predict-gs tfidf.predict(X test) 


>>># 使 用 pandas 对 需要 提交 的 数据 进行 格式 化 。 

>>> submission_count=pd.DataFrame({'id': test['id'], 'sentiment': count y predict}) 
>>> sumüssion tfidf-pd.DataFrame (('id': test['id'], 'sentiment': tfidf y predict]) 
>>>+# 结 果 输 出 到 本 地 硬盘 。 

>>> sumüssion count.to csv('../Datasets/IMB/submission oont.csv', index- 

False) 

>>> submission tfidf.to csv('../Dataset's/IMB/suanission tfidf.csv', index- 

False) 


>>># 从 本 地 读 人 未 标记 数据 。 
>>> unlabeled train- pd.read csv ('../Datasets/IM-B/unlabeledTrainData.tsv', delimiter- '\t', 
quting= 3) 


>>># 导 入 nitk.data 
>>> import mltk.data 


>>># 准 备 使 用 nltk 的 tokenizer 对 影评 中 的 英文 句子 进行 分 割 。 
>>> tokenizer- nltk.data.load ("tokenizers /punkt/english.pickle') 


>>> 4 XE MM review to sentens 逐条 对 影评 进行 分 句 。 
>>> def review to sentences (review, tokenizer): 

>>> raw sentences- tokenizer. tokenize (review. strip()) 
>>> sentences- [] 

>>> for raw sentence in raw sentences: 


>>> if len(raw sentence) >0: 
>>> ‘sentences .append (review to text(raw sentence, False)) 
>>> retum sentences 


>>> corpore= [] 

>>># 准 备用 于 训练 词 向 量 的 数据 。 

>>> for review in unlabeled train['review!]: 

>>> corpora += review to sentences (review.deoode ('utf8'), tokenizer) 


>>># 配 置 训练 词 向 量 模型 的 超 参数 。 
>>> mm features- 300 
>>>min word count- 20 

>>> num_workers= 4 

>>> context= 10 

>>> downsampling= le- 3 


25» 4 从 gensim.models $À word2vec 

>>> fran gensim.models import word2vec 

>>># 开 始 词 向 量 模型 的 训练 。 

>>> model= word2vec.Word2Vec (corpora, workers- num workers, V 
Size-num features, min count-min word count, V 
window= context, sample- downsampling) 


>>>model.init_sims (replace- True) 


»»»mpdel name-"../Datasets/IM-B/300features 2üminwords l0context" 
>>># 可 以 将 词 向 量 模型 的 训练 结果 长 期 保存 于 本 地 硬盘 。 
»»»model.save(model name) 


>>># 直 接 读 入 已 经 训练 好 的 词 向 量 模型 。 
>>> fran gensim.models import Word2Vec 
>>> model= Word2Vec. load (". . /Datasets/IMDB/300features 20minwords 100ontext") 


>>># 探 查 一 下 该 词 向 量 模 型 的 训练 成 果 。 
>>>model most similar("man") 
[(utwaman', 0.6285387873649597) , 

(u'lad', 0.5965538620948790) , 
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(u"lady', 0.5933366417884827) , 
(u'guy', 0.5359011888504028) , 
(u'soldier", 0.5327591896057129) , 
(u'priest', 0.5269299149513245) , 
(u'chap', 0.523842453956604) , 
(u'person', 0.5220147371292114) , 
(u'monk', 0.512861967086722) , 
(u'men', 0.5102326273918152) } 


>>> import numpy as np 


>>># 定 义 一 个 函数 使 用 词 向 量 产生 文本 特征 向 量 。 

>>> def makeFeatureVec (words, model, num features): 

>>> featureVec- rp.zeros ( (num features,),dtype= "float32") 
>>> rwords- 0. 

» dindexQword_set= set (model .index2word) 

» for word in words: 


» if word in index2word set: 
>>> nwords= nwords + 1. 
>>> featureVec- np.add (featureVec,model [word]) 


>>> featureVec- np.divide (featureVec, rwords) 
>>> return featureVec 


>>># 定 义 另 一 个 每 条 影评 转化 为 基于 词 向 量 的 特征 向 量 (平均 词 向 量 ) 。 
>>> def getAvgFeatureVecs (reviews, model, num features): 

>>> counter= 0 

>>> TeviewFeatureVecs- rp. zeros ( (len (reviews) ,nm features) ,dtype= "float32”) 


>>> for review in reviews: 
>>> TeviewReabirevecs [counter ]=mekefeaturstec (review, model, mm features) 
>>> counter +=1 


>>> retum reviewfeatureVecs 


>>># 准 备 新 的 基于 词 向 量 表示 的 训练 和 测试 特征 向 量 。 
>>> clean train reviews- [] 
>>> for review in train["review"]: 


>>> clem train reviews.arpend(review to text (review, reme stqpaorde- me) ) 


>>> trainDataVecs- getAvgFeatureVecs (clean train reviews, model, num features) 


>>> clean test reviews- [] 


>>> for review in test ["review"] : 
>>> Clean test reviews.append(review to text (review, remove stopwords- 
Tre) 


>>> testDataVecs- getAvgFeatureVecs (clean test reviews, model, num features) 


>>># 从 skleam.ensenble 导 人 GradientBoostingclassifier 模 型 进行 影评 情感 分 析 。 
>>> from skleam.ensenble inport GradientBoostingClassifier 


>>># 从 skleam.grid search 4f A. Gridsearchcv 用 于 超 参数 的 网 格 搜索 。 
>>> from skleam.grid search import GridSearchcv 


>>> goc= GradiientBoostingclassifier() 


>>>+ 配 置 超 参数 的 搜索 组 合 。 
»»»params goc- {'n_estimators':[10, 100, 500], "learning rate':[0.01, 0.1, 
1.0], "max depth': (2, 3, 4]) 


>>> gs= GridSearchCv (doc, params doc, c= 4, n jdos-- 1, verbose- 1) 
>>> gs.fit (trainDatavecs, y train) 


>>>+# 输 出 网 格 搜索 得 到 的 最 佳 性 能 以 及 最 优 超 参 数组 合 。 
»»»print gs.best score - 
»»»print gs.best params - 


Fitting 4 folds for each of 27 candidates, totalling 108 fits 
[Parallel m jdos--1)]: Done 42tasks | elapsed: 147.5min 
[Parallel (n_joho=- 1)]: Done 108 out of 108 | elapsed: 306.2min finished 
0.85692 

("n estimators": 500, "learning rate': 0.1, "rex depth': 4) 


>>># 使 用 超 参 数 调 优 之 后 的 梯度 上 升 树 模型 进行 预测 。 

>>> result= gs.predict (testDataVecs) 

>>> output- pd.Datakrame ( data= ("id":test ["id"], "sentiment":result} ) 
>>> autput.to csv( ". ./Datasets/IMB/sdhrüssicn wWv.csv", index False, quoting- 3) 





al 


提交 结果 : 最 后 ,按照 代码 78 所 设 定 的 输出 ,我 们 得 到 三 个 用 于 提交 预测 结果 的 


文件 ,分 别 是 : submission. count. csv, submission tfidf. csv 以 及 submission _ 
w2v. csv; 并 且 如 图 4-9 所 示 ,Kaggle 竞赛 平台 的 自动 测评 系统 给 出 了 上 述 3 个 提 
交 文 件 的 最 终 性 能 表现 。 其 中 使 用 TfidfVectorizer 搭配 朴素 贝 叶 斯 模型 取得 了 





最 好 的 预测 性 能 。 
Public Private 
Submission Files Score Score Selected? 
Post-Deadline: Mon. 15 Feb 2016 04:24:49 submission 0.85468 。 0.85468 
Edit description wev.csv 
Post-Deadline: Mon. 15 Feb 2016 04:24:21 submission t 0.86508 0.86508 
Edit description fidf.csv 
Post-Deadline: mon. 15 Feb 2016 04:23:16 submission c 0.86372 0.86372 
Edit description ount.csv 











图 4-9 IMDB 影评 得 分 预测 竞赛 的 提交 结果 


n Zr MIST 手写 体 数字 图 片 识别 


与 前 面 两 项 与 文本 分 析 相 关 的 竞赛 任务 不 同 ,MNIST 手写 体 数 字 图 片 识别 竞赛 主 

要 关注 对 数字 图 片 的 识别 。 并 且 在 数据 规模 和 图 片 分 辨 率 上 ,也 远 远 高 于 之 前 在 书 中 用 
到 的 Scikit-learn 中 集成 的 数据 。 曾 经 ,这 项 任务 是 那些 从 事 图 像 相 关 的 机 器 学 习 研究 者 
的 经 典 入 门 级 课题 。 现 在 ,如 图 4-10 所 示 , 这 个 任务 数据 同样 也 被 发 布 到 Kaggle 上 , 供 
全 世界 的 兴趣 爱好 者 免费 下 载 分 析 与 学 习 。 
。 下 载 数据 : 这 个 任务 所 提供 的 下 载 数据 非常 简单 清晰 ,只 有 两 个 文件 ,分 别 是 带 

有 数字 类 别 的 train. csv 与 测试 文件 test, csv。 每 个 手写 体 数 字 图 像 在 这 两 份 文 

件 中 都 被 首尾 拼接 为 一 个 28X28 二 784 维 的 像素 向 量 , 而 且 每 个 像素 都 使 用 [0， 
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图 4-10 MNIST 手写 体 数字 图 片 识别 竞赛 主页 了 
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图 4-11 MNIST 手写 体 数字 图 片 像 素 表 示 和 矩阵 ,图片 来 自 于 Tensorflow. org 


。 搭建 模型 : 接 下 来 ,我 们 将 采用 多 种 基于 skflow 工具 包 的 模型 完成 大 规模 手写 体 
数字 图 片 识别 的 任务 。 如 代码 79 所 示 , 这 些 模型 包括 : 线性 回归 器 ,全 连接 并 包 
含 三 个 隐 层 的 深度 神经 网 络 (DNN) 以 及 一 个 较为 复杂 但 是 性 能 强大 的 卷 积 神经 


网 络 (CNN)。 


© https://www. kaggle. com/c/digit-recognizer 











| 代码 79. MNIST 手写 体 数 字 图 片 识别 竞赛 编码 示例 了 


© ”部 分 参考 自 https://github. com/tensorflow/skflow/blob/master/examples/mnist. py 


# 导 人 pandas 并 重 命名 为 pd 
>>> import pandas as pd 


+EH pandas 从 本 地 读 取 MTST 手 写 体 数字 训练 图 片 集 。 
>>> train=pd.read_csv("../Datasets/MNIST/train.csv') 

# 查 验 训练 样本 数量 为 42000 条 ;数据 维度 为 785, 
>>>train.shape 

(42000, 785) 


# 使 用 pandas 从 本 地 读 取 MNIST 手 写 体 数字 测试 图 片 集 。 
>>> test=pd.read_csv("../Datasets/MNIST/test.csv') 

+ 查验 训练 样本 数量 为 28000 条 ;特征 维度 为 784, 
»»»test.shape 

(28000, 784) 


+ 将 训练 集中 的 数据 特征 与 对 应 标记 分 离 。 
>>> y train- train['label'] 
>>>X trair train.drop("label', 1) 


+ 准备 测试 特征 。 
>>>X test-test 


4 分 别 导 入 tensorflow 与 skflow, 
>>> import tensorflow as tf 
>>> import skflow 


HEH skflow 中 已 经 封装 好 的 基于 tensorflow 搭 建 的 线性 分 类 器 TensorFlowLinearclas sifier 进 行 ， 


学 习 预 测 。 


>>> classifier= skflow.TensorFlowLinearClassifier(n classes- 10, batch size= 


100, steps- 1000, learning rate- 0.01) 
>>> classifier.fit K train, y train) 
Step #1, avg. loss: 150.07220 

Step #101, avg. loss: 21.13627 

Step #201, avg. loss: 7.63181 


Step #301, avg. loss: 6.42357 
Step #401, avg. loss: 6.15198 

Step #501, epoch #1, avg. loss: 4.97943 
Step # 61, epoch #1, avg. loss: 5.07608 
Step #701, epoch #1, avg. loss: 5.24003 
Step #801, epoch #1, avg. loss: 4.96451 
Step #901, epoch #2, avg. loss: 4.63976 


>>> linear y predict- classifier.predict (X test) 


>>> linear sukmission- pd.DataFrame (('TmageId':range(1, 28001), 'Label': linear y predict}) 
>>> linear sutmission.to csv('../Datasets/MNIST/linear sutmissicn.csv', index- False) 


# 使 用 sktlow P C. £88 EE D AMET tensorflow 搭 建 的 全 连接 深度 神经 网 络 TensarFlowDNNClassifier 
进行 学 习 预 测 。 

>>> classifier= skflow.TensorFlowINNClassifier(hicden units- [200, 50, 10], n classes- 10, steps- 
5000, learning rate=0.01, batch size- 50) 

»»»classifier.fit(X train, y train) 

Step #1, avg. loss: 46.02682 
Step #501, avg. loss: 1.89034 
Step #1001, epoch #1, avg. loss: 
Step #1501, epoch #1, avg. loss: 
Step # 2001, epoch #2, avg. loss: 
Step # 2501, epoch #2, avg. loss: 
Step # 3001, epoch #3, avg. loss: 
Step # 3501, epoch #4, avg. loss: 
Step # 4001, epoch #4, avg. loss: 
Step # 4501, epoch #5, avg. loss: 0.14044 





>>> dm y predict= classifier.predict (X test) 


>>>dm suümission-pd.Datarame ({"Imageld" :range (1, 28001), "Iabel': dnn y predict}) 
>>>dnn_suimission.to_csv('../Datasets/MNIST/dnn_sukmission.csv', index- 
False) 


HEH Tensorflow 中 的 算 子 自行 搭建 更 为 复杂 的 卷 积 神经 网 络 ,并 使 用 skflow 的 程序 接口 从 事 - 
MTST 数 据 的 学 习 与 预测 。 : 
>>> def max pool 2x2 (tensor in): 

>>>  retum tf.nn.max pool (tensor_in, ksize- [1, 2, 2, 1], strides- [1, 2, 2, 1], padding 'SME') 


>>> def conv model (X, y): 
>>> X-tf.reshape (X, [- 1, 28, 28, 1]) 
>>> with tf.variable sogpe('oonv layerl'): 


» h coml- skflow. ops. convad (X, n filters- 3, filter shape= [5, 5], bias= True, 
activation- tf.nn.relu) 
>>> h pooll-mex pool 2x2(h convl) 
>>> with tf.variable soope('conv layer2"): 
>>> h_conv2= skflow.cps.conv2d(h pooll, n filters- 64, filter shape- [5, 5], 
bias- Tre, activation- tf.m.relu) 
>>> h pool2-mex pool 2x2(h conv2) 
>>> h pool2 flat-tf.reshape(h pool2, [-1, 7 * 7 * 64]) 


>>> h fcl-skflow.gps.dmn(h pool2 flat, [1024], activaticn- tf.nn.relu, keep prab- 0.5) 
>>> return skflow.mbdels.logistic regression(h fcl y) 


>>> classifier- skflow.TensorFlowEStimator(model frr oonv model, n classes- 
10, batch size- 100, steps- 20000, learning rate- 0.001) 
>>> classifier.fit (x train, y train) 

Step #1, avg. loss: 123.86279 

Step # 2001, epoch # 4, avg. loss: 5.31864 

Step #4001, epoch #9, avg. loss: 0.25143 

Step # 6001, epoch #14, avg. loss: 0.09304 

Step #8001, epoch #19, avg. loss: 0.03642 

Step #10001, epoch # 23, avg. loss: 0.01281 

Step #12001, epoch #28, avg. loss: 0.00471 
Step & 14001, epoch # 33, avg. loss: 0.00199 

Step #16001, epoch #38, avg. loss: 0.00095 

Step #18001, epoch # 42, avg. loss: 0.00051 


‘TensorFlowistimator (batch size- 100, continue_training= False, early stopping 





rounds-None, keep checkpoint every n hours- 10000, learning rate- 0.001, max to keep- 5, model fr= 
< function conv mpdel at Ox1082cdf50» , n classes- 10, num cores- 4, aptimizer- 'saD', steps- 20000, tf. 


master='', tf randm seed- 42, verbose- 1) 


+ 这 里 务必 请 读者 朋友 在 实战 中 注意 , 不 要 直接 将 所 有 测试 样本 交 给 模型 进行 预测 。 由 于 
# Tensorflow 会 同时 对 所 有 测试 样本 进行 矩阵 运算 ,一 次 对 28000 个 测试 图 片 进行 计算 会 消耗 

# 大 量 的 内 存 和 计算 资源 。 这 里 所 采取 的 是 逐 批 次 地 对 样本 进行 预测 ,最 后 拼接 全 部 预测 结果 
>>> conv_y predict- [] 

>>> import numpy as mp 

>>> for i in mp.arange (100, 28001, 100): 

>>> conv y _predict=np.append (conv_y predict, classifier.predict (X test[i — 100:i])) 
»»»o00nv submission- pd.DataFrame(('ImegeId':range(1, 28001), 'Label': np.int32(conv y predict)]) 
>>> oorv_ submission.to csv('../Datasets/MNIST/conv sumission.csv', index- 

False) 


ed 


。 提交 结果 : 最 后 ,按照 代码 79 所 期 待 的 输出 ,我 们 得 到 3 个 用 于 提交 预测 结果 的 
文件 ,它们 分 别 是 : linear_ submission. csv, dnn_ submission. csv 以 及 conv_ 
submission. csv。 并 且 如 图 4-12 所 示 ,Kaggle 竞赛 平台 的 自动 测评 系统 给 出 了 上 
述 3 个 提交 文件 的 最 终 性 能 表现 。 其 中 卷 积 神经 网 络 (CNN) 模 型 取得 了 最 佳 的 
预测 性 能 ,具体 原因 请 读者 参考 纽约 大 学 教授 Yann LeCun 的 论文 [20] 以 及 他 
所 发 布 的 MNIST 研究 网 站 : http://yann. lecun. com/exdb/mnist/ 。 


Public 

Submission Files Score Selected? 
Mon, 15 Feb 2016 02:56:08 convsubmissioncsv — 097857 8 

Edit description. 

Mon, 15 Feb 2016 02:55:11 dnnsubmissioncsv — 0.95000 (G 

Edit description. 

Mon, 15 Feb 2016 02:54:37 linear_submission.csv 0.86100 @ 

Edit description 











E 4-12 MNIST 手写 体 数 字 图 片 识别 竞赛 的 提交 结果 


n 45 SANE 


本 章 为 各 位 读者 提供 了 一 个 非常 出 色 的 实践 平台 Kaggle, 并 且 示 范 了 如 何在 这 个 平 
台 上 进行 机 器 学 习 的 实战 演练 。 一 般 而 言 , 对 于 像 Kaggle 这 样 的 在 线 数据 分 析 竞 赛 平 
台 , 都 遵照 下 载 数据 搭建 模型 和 提交 结果 三 个 步骤 。 并 且 多 数 情 况 下 ,并 不 要 求 参 赛 者 
在 其 指定 的 平台 上 运行 源 代码 。 因 此 就 使 得 参赛 的 兴趣 爱好 者 可 以 更 加 灵活 地 搭建 预测 
模型 , 既 可 以 自行 编程 ,也 可 以 使 用 大 量 开源 的 工具 包 。 

考虑 到 不 同 的 数据 形式 ,在 本 章 为 读者 挑选 了 三 个 在 Kaggle 平台 上 的 竞赛 任务 ,分 
别 是 基于 结构 化 数据 ,无 结构 文本 以 及 图 像 的 分 析 和 预测 问题 。 同 时 ,综合 使 用 了 许多 在 
本 书 中 提 到 的 经 典 以 及 最 新 的 机 器 学 习 模 型 .数据 处 理 技巧 和 性 能 提升 方法 。 期 待 各 位 
可 以 从 中 获 益 。 

最 后 , 祝 大 家 在 Kaggle 上 实战 愉快 ,同时 也 可 以 发 送 电 邮 与 作者 讨论 实战 经 验 。 本 
章 所 有 数据 与 代码 示例 都 可 以 通过 此 链接 http://pan. baidu. com/s/1dENAUTr 以 及 
http://pan. baidu. com/s/1nvituST 下 载 。 


2015 年 12 月 的 一 天 夜里 ,我 在 纽约 的 家 中 收 到 清华 大 学 李 超 老师 的 一 则 微 信 。 她 
说 她 本 人 非常 欣赏 我 在 网 络 上 发 表 的 数 个 有 关 如 何 使 用 Python 快速 搭建 机 器 学 习 系 统 
和 在 Kaggle 竞赛 平台 上 实战 的 帖子 ,并 且 和 希望 我 整理 出 一 本 书 出 版 。 

开始 我 还 很 话 异 ,因为 我 在 网 上 发 表 的 所 有 帖子 都 是 日 常 学 习 工 作 的 经 验 之 谈 , 随 性 
之 作 ; 没 有 太 多 的 逻辑 可 言 , 更 别 说 出 版 书籍 了 。 当 时 发 表 那 些 帖子 的 初衷 ,只 是 不 希望 
很 多 机 器 学 习 爱 好 者 重 蹈 我 在 实践 中 的 错误 ,也 希望 可 以 帮助 更 多 的 同学 快速 上 手 并 且 
体验 实战 中 乐趣 。 

但 是 , 当 我 接 下 整理 这 部 书稿 的 任务 之 后 ,忽然 感觉 自己 身上 的 担子 重 了 很 多 。 特 别 
是 在 得 知 这 本 书 很 有 可 能 被 选 为 通用 教材 之 后 ,立刻 发 现 之 前 所 有 我 发 布 在 互联 网 上 的 
帖子 几乎 都 不 可 用 。 原 因 是 ,作为 一 部 教材 就 更 要 设身处地 为 读者 着 想 , 尤 其 是 这 本 教材 
的 目标 受众 不 仅仅 是 计算 机 专业 人 士 , 更 有 非 计算 机 专业 的 爱好 者 和 初 入 此 道 的 本 科 生 。 
所 以 ,我 几乎 重新 编制 了 整 部 书 的 提纲 ,参考 网 上 的 帖子 重 写 了 第 2 章 和 第 3 章 , 并 且 考 
虑 到 不 同 层次 读者 的 需求 ,增加 了 第 1 章节 的 Python 编程 基础 和 第 4 章 Kaggle 竞赛 实 
战 等 相关 内 容 。 

尽管 时 间 仓 促 , 作 者 也 力求 全 书 条 理 清晰 、` 深 入 浅 出 ;但 也 有 因 能 力 所 限 , 力 所 不 逮 之 
处 ,还 望 各 位 朋友 批评 指正 ,及 时 勘误 ;也 欢迎 大 家 发 邮件 到 fanmiao. cslt. thu@ gmail. 
com 参与 讨论 。 

最 后 ,感谢 您 购 阅 (Python 机 器 学 习 及 实践 ), 并 借 由 作者 本 人 时 常 所 引用 斯 蒂 夫 。… 
乔布斯 的 一 句 名 言 ,作为 本 书 的 收尾 : 求知 若 饥 .虚心 若 思 (Stay Hungry. Stay Foolish), 


希望 在 今后 的 人 生 道 路 上 能 与 读者 朋友 们 共勉 。 
f 水 
dts 


写 于 中 国 北京 清华 园 
2016 年 5 月 1 日 
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图 1-4 使 用 10 条 训练 样本 得 到 的 二 类 分 类 器 (绿色 直线 ) M15 使 用 所 有 训练 样本 得 到 的 二 类 分 类 器 ( 蓝 色 直线 ) 
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图 1-7 Python 解释 器 Windows 运行 界面 
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图 1-8 Windows 操作 系统 下 Python 环境 变量 配置 
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Le Python 27.10 Shell 4 

Python 2.7.10 (default, May 23 2015, 09:44:00) [MSC v.1500 64 bit (AMD64)] on wi 
n32 

Type "copyright", "credits" or "license()" for more information. 

>>> print 'Hello Everyone!' 

Hello Everyone! 

>>> 














图 1-9 Windows 操作 系统 下 Python IDLE 运行 界面 
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1o [1]: |deport pandas a5 pd 


df train = pd.read csv(^../Datasets /Breast-Cancer/breast-cancer-train.csv") 


In [2]: |f test. = pd.read_cav("../Datasets/Breast-Cancer/breast-cancer-test csv") 





In [3]: (df test negative - a£ test.loc{at_test{ Type'] == @][{Clump Tai 
GF test positive ~ df test lec[df test['Type'] = 1][[ 'Clump Thici 





Cell site 了 
Cell Stze"1] 





In [4]: [inport watplotiib.pyplot as pit 





plt.scatter(df test negativel Clump Thickness'], dE test negative['Cell Size'], marker - 'o', s-200, c-'red') 
Pit. scatter(dé test positive['Clusp Thickness” st positivel "Cell Size], marker ~ "x', s-158, ce black) 
Pt -xlabel("Clump Thickness) 
plt.ylabel(*Cell Size") 

Pt show) 





(C:\Anaconda2\1ib\site-packages\matplotlib\collections.py:590: Futurellarning: elementwise comparison failed; returning scalar ins 
tead, but in the future will perform elementwise comparison 
df self. edgecolors == str(^tace"): 











图 1-10 IPython 解释 器 界面 


liao Fan jieleizhu$ pyt! 
[Python 2.7.18 (default, 


[GCC 4.2.1 Compatible Apple LLVM 7. 
(Type "help" 
>>> exit() _ 






59.5)] on darwin 
"copyright", "credits" or "license" for more information. 













_Jieleizhus curl http 
Š Received & Xferd Average Speed Time 
Dload Upload Total 










“Py > ge! 
Current 
Speed 


o tine 
Left 


ypa.io 
Time 
Spent 





WARNING: Improper use of the sudo command could lead to data loss 
or the deletion of important system files. Please double-check your 
[typing when using sudo. Type "man sudo" for more information. 


To proceed, enter your password, or type Ctrl-C to abort. 
Password: 


The directory '/Users/jieleizhu/Library/Caches/pip/http' or its parent directory is not ¢ 
wner of that directory. If executing pip with sudo, you may want sudo's -H flag. 
The directory '/Users/jieleizhu/Library/Caches/pip' or its parent directory is not owned 
[ that directory. If executing pip with sudo, you may want sudo's -H flag. 
Collecting pip 
Downloading pip-8.8.0-py2.py3-none-any.whl (1.2MB) 
ET 


100% | | 1.2MB 369k8/s 
Collecting wheel 


Downloading wheel-0.26.0-py2.py3-none-any.whl (63kB) 


1005 | i | 65 ke 6. 98/ 
Installing collected packages: pip, wheel 


Successfully installed pip-i wheel-0.26.0 





图 1-13 Mac OS 下 pip 安装 步骤 





Supervised Learning Model 








图 2-1 监督 学 习 基 本 架构 和 流程 








图 2-5 包括 支持 向 量 机 分 类 器 在 内 的 多 种 分 类 直线 图 2-6 K 近邻 算法 展示 样 例 







scikit-learn 
algorithm cheat-sheet 


图 2-8 Scikit-lean 工具 包 模 型 使 用 建议 (图 片 来 源 于 http://scikit-learn. org/ 
stable/tutorial/machine learning map/index. html) 

















Input Space Feature Space 


图 2-9 HARER $ 将 线性 不 可 分 的 低 维 输入 ,映射 到 
高 维 可 分 的 新 特征 空间 ,图 片 摘 自 于 互联 网 


Iteration 1 iteration 2 iteration 3 
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Iteration 5 




















2-10 K-means 算法 迭代 过 程 示例 ,图 片 摘 自 于 互联 网 


Instances K — 2, silhouette coefficient- 0.471 
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图 2-11 E FEL SE BEREICHE E A [e] 26 E BIER. K-means 聚 类 结果 示例 
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2-13 K-means 算法 迭 全 局 最 优 解 与 局 部 最 优 解 的 比较 ,图 片 摘 自 于 互联 网 
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图 2-17 手写 体 数字 图 像 经 PCA 压缩 后 的 二 维 空间 分 布 
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图 3-2 ”线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情况 
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图 3-3 2 次 多 项 式 回归 与 线性 回归 模型 在 比萨 训练 样本 上 3-4 4 次 多 项 式 回归 与 其 他 模型 在 比萨 训练 样本 上 的 拟 


的 拟 合 情 况 比较 合 情 况 比较 
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图 3-8 使 用 Tensorflow 自 定义 一 个 线性 分 类 器 在 “ 良 / 恶 性 图 3-9 使 用 Scikit-learn 的 LogisticRegression 模型 训练 


乳腺 癌 肿 瘤 " 数 据 上 学 习 到 的 二 分 类 直线 得 到 的 二 分 类 直线 
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0 1 0 0 1 0 1 
图 3-13 使 用 感知 机 区 分 并 (AND) 与 非 (NAND)、 或 (OR) 以 及 异 或 
(XOR) 运 算 所 产生 的 数据 ,图 片 摘自 [8] 


